본문 바로가기

nlp14

[강의노트] 05-2 Text Representation II - Distributed Representation Part 2 (Word2Vec) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: Word2VecTwo ArchitecturesContinuous bag-of-words (CBOW) : 주변 단어들로 한 단어를 예측Skip-gram : 한 단어로 주변 단어들을 예측직관적으로 생각했을 때 정보를 더 많이 받아 하나의 단어를 예측하는 CBOW가 더 성능이 좋을 것 같아 보이지만 Skip-gram이 더 좋은 성능을 보이는데, 이는 Gradient flow 관점에서 본다면 CBOW는 하나의 단어에서 주변 단어들의 gradient를 업데이트하는 반면 Skip-gram은 주변 단어들의 정보를 하나의 gradient를 업데이트하는데 사용하기.. 2024. 7. 13.
[강의노트] 05-1 Text Representation II - Distributed Representation Part 1 (NNLM) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: NNLMDistributed Representation: Word EmbeddingWord Embedding어떤 단어를 의미론적으로 유사한 단어는 서로 가까운 공간상에 위치하도록 특정 공간의 vector space로 매핑하는 것Word vectors: one-hot vector가장 단순하고 직관적인 표현특정 단어의 인덱스에 대해 그 단어가 맞으면 1, 아니면 0$w^{at} = [0,0,1, \dots , 0]$, $w^{zebra} = [0,0,0,\dots, 1]$단어 사이의 유사도가 보존되지 않는다.$(w^{hotel})^Tw^{motel} .. 2024. 7. 10.
[강의노트] 04 Text Representation I - Classic Methods 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Bag of Words어떻게 가변 길이의 문서를 고정 길이의 숫자형 벡터로 변환할 것인가?Bag of Words: MotivationDocument Representation어떻게 하나의 Document를 구조화된 vector/matrix 형태(Vector Space ModeL)로 변환할 것인가 (Transform unstructured data into structured data)Bag of Words:Idea가정: 문서들은 순서를 무시하는 단어들의 집합체이다.단어 하나 하나를 atomic symbol로 고려하여 discrete space로 표현Term-Docume.. 2024. 7. 9.
[강의노트] 02-3 Text Preprocessing - Part 3 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Syntax Analysis (구문 분석)Syntax Analysis형식 문법의 규칙을 따르는 위계구조/형태/문장구조를 분석하는 과정Parser입력 문자열을 특정한 문법에 걸맞게 변환(파악)하는 알고리즘Directionality(방향성)e.g.) top-down / bottom-upSearch strategy(탐색전략)e.g.) depth-first, breadth-firstParsing RepresentationTree vs ListMeaning문장 S는 명사절 NP와 동사절 VP로 구성된다.명사절은 이름(John)을 가진다.동사절은 동사(ate) 과 다른 명사절을 .. 2024. 6. 29.
[강의노트] 02-2 Text Preprocessing - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Lexical Analysis (어휘 분석)어휘 분석의 목적일정한 순서가 있는 characters의 조합을 token으로 변경 (token: 의미를 가지는 character strings)어휘 분석의 과정Tokenizing품사 태깅 (POS tagging)NER(named entity recognition) 개체명 인식, 명사구 인식 등 수행구조적 분석의 예시Part of speech각 토큰/단어에 대해 형태소 판별Named entity recognition (개체명 인식)e.g.) Obama: 사람, now: Date, ...Co-reference (문장 내에서 같은.. 2024. 6. 28.
[강의노트] 02-1 Text Preprocessing - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Introduction to NLPNatural Language Processing음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침Classical categorization of NLPPhonology (음운 분석)Speech to Text (STT)Speech RecognitionText to Speech (TTS)Morphology (형태소 분석)Syntax (구조적인 관계 분석)Semantics (의미론적 분석)Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rar.. 2024. 6. 27.