본문 바로가기

딥러닝과 자연어처리 (DL & NLP)/강의노트 - Text Analytics (고려대 강필성 교수님)

[강의노트] 02-1 Text Preprocessing - Part 1

by YS_LEE 2024. 6. 27.

위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의
비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.

Introduction to NLP

Natural Language Processing

음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침

Classical categorization of NLP

Phonology (음운 분석)
- Speech to Text (STT)
- Speech Recognition
- Text to Speech (TTS)
Morphology (형태소 분석)
Syntax (구조적인 관계 분석)
Semantics (의미론적 분석)
Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rarely used)

An example of NLP

Lexical Analysis
Syntax Analysis
Semantic Analysis
Pragmatic Analysis (함축적인 의미를 분석하기 어려움)

Why is NLP hard?

Programming Language vs Natural Language

프로그래밍 언어는 단순한 문법(기능적 어휘는 100단어 정도면 가능)
자연 언어는 이와 다름 (영어의 경우 10만개 이상)
- 복잡한 문법
- 모호성
- 시간에 따른 단어의 변화 (생명체처럼 진화하기도 하고 사라지기도 함)

Ambiguity of a natural language

중의적 표현 (ex. He saw the man with the telescope)
실제로는 더 복잡한 구문이 훨씬 많음

Research Trends in NLP

From rule-based approaches to statistical approaches
From statistical approaches to machine-learning(deep-learning) approaches
-> 연역적 방식에서 귀납적 방식으로의 자연어 처리 모델을 만드는 형태로 헤게모니의 변화
End-to-End Multi-Task Learning (종단 학습)
- 문서와 최종적인 output에 대한 label들만 주면 사람의 개입 없이 task를 수행할 수 있는 자연어 처리 모델 개발
Performance Improvements with a huge model
Statistical translation vs deep learning-based translation

Data Quality in NLP

ExoBrain Project
Data Annotation as a Business Model
- ScaleAI
- BasicAI
- Amazon SageMaker Ground Truth
  - Data Labeling Platform
- DataMaker
- 테스트웍스

요약

고전적인 방식의 자연어 처리는 음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계 등의 과정을 거침
자연 언어가 가지는 특성(많은 어휘, 복잡한 문법, 중의적 표현과 같은 모호성, 시간의 따른 단어의 변화 등)으로 자연어 처리는 어려움이 있음
연구 트렌드는 규칙 기반 -> 통계 기반 -> 머신러닝 기반 접근방식으로 발전해왔음 (ex 구글 번역기 등이 기계 번역으로 성능 향상)
여러 기업에서 사람의 개입을 적극적으로 활용하며 데이터 품질을 향상하고자 하는 노력이 있음

저작자표시 (새창열림)

'딥러닝과 자연어처리 (DL & NLP) > 강의노트 - Text Analytics (고려대 강필성 교수님)' 카테고리의 다른 글

[강의노트] 04 Text Representation I - Classic Methods (0)	2024.07.09
[강의노트] 02-3 Text Preprocessing - Part 3 (0)	2024.06.29
[강의노트] 02-2 Text Preprocessing - Part 2 (0)	2024.06.28
[강의노트] 01-2 Introduction to Text Analytics - Part 2 (0)	2024.06.26
[강의노트] 01-1 Introduction to Text Analytics - Part 1 (1)	2024.06.24

댓글

티스토리툴바