반응형
위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의
비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.
Introduction to NLP
Natural Language Processing
- 음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침
Classical categorization of NLP
- Phonology (음운 분석)
- Speech to Text (STT)
- Speech Recognition
- Text to Speech (TTS)
- Morphology (형태소 분석)
- Syntax (구조적인 관계 분석)
- Semantics (의미론적 분석)
- Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rarely used)
An example of NLP
- Lexical Analysis
- Syntax Analysis
- Semantic Analysis
- Pragmatic Analysis (함축적인 의미를 분석하기 어려움)
Why is NLP hard?
Programming Language vs Natural Language
- 프로그래밍 언어는 단순한 문법(기능적 어휘는 100단어 정도면 가능)
- 자연 언어는 이와 다름 (영어의 경우 10만개 이상)
- 복잡한 문법
- 모호성
- 시간에 따른 단어의 변화 (생명체처럼 진화하기도 하고 사라지기도 함)
Ambiguity of a natural language
- 중의적 표현 (ex. He saw the man with the telescope)
- 실제로는 더 복잡한 구문이 훨씬 많음
Research Trends in NLP
- From rule-based approaches to statistical approaches
- From statistical approaches to machine-learning(deep-learning) approaches
-> 연역적 방식에서 귀납적 방식으로의 자연어 처리 모델을 만드는 형태로 헤게모니의 변화 - End-to-End Multi-Task Learning (종단 학습)
- 문서와 최종적인 output에 대한 label들만 주면 사람의 개입 없이 task를 수행할 수 있는 자연어 처리 모델 개발
- Performance Improvements with a huge model
- Statistical translation vs deep learning-based translation
Data Quality in NLP
- ExoBrain Project
- Data Annotation as a Business Model
- ScaleAI
- BasicAI
- Amazon SageMaker Ground Truth
- Data Labeling Platform
- DataMaker
- 테스트웍스
요약
- 고전적인 방식의 자연어 처리는 음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계 등의 과정을 거침
- 자연 언어가 가지는 특성(많은 어휘, 복잡한 문법, 중의적 표현과 같은 모호성, 시간의 따른 단어의 변화 등)으로 자연어 처리는 어려움이 있음
- 연구 트렌드는 규칙 기반 -> 통계 기반 -> 머신러닝 기반 접근방식으로 발전해왔음 (ex 구글 번역기 등이 기계 번역으로 성능 향상)
- 여러 기업에서 사람의 개입을 적극적으로 활용하며 데이터 품질을 향상하고자 하는 노력이 있음
반응형
'딥러닝과 자연어처리 (DL & NLP) > 강의노트 - Text Analytics (고려대 강필성 교수님)' 카테고리의 다른 글
[강의노트] 04 Text Representation I - Classic Methods (0) | 2024.07.09 |
---|---|
[강의노트] 02-3 Text Preprocessing - Part 3 (0) | 2024.06.29 |
[강의노트] 02-2 Text Preprocessing - Part 2 (0) | 2024.06.28 |
[강의노트] 01-2 Introduction to Text Analytics - Part 2 (0) | 2024.06.26 |
[강의노트] 01-1 Introduction to Text Analytics - Part 1 (0) | 2024.06.24 |
댓글