본문 바로가기

딥러닝과 자연어처리 (DL & NLP)15

[강의노트] 05-3 Text Representation II - Distributed Representation Part 3 (GloVe & FastText) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다. Word-level: GloVeLimitations of Word2Vec과도하게 사용된 단어에 대해 너무 많이 학습e.g.) 관사 the가 나올 확률이 너무 높음 P(w|the)Glovematrix factorization method 기반V x V 크기의 큰 행렬$X_{ij}$ = i가 j와 함께 등장하는 빈도, $X_i$ = 전체 코퍼스에서 단어 i가 등장한 횟수$P_{ij} = P(j|i) = \frac{X_{ij}}{X_i}$Motivation특정 k라는 단어가 ice와 연관이 높고 steam과는 아니라면 $P_{ik} / P_{jk}$ 가 커야함단어 k가 .. 2024. 7. 20.
[강의노트] 05-2 Text Representation II - Distributed Representation Part 2 (Word2Vec) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: Word2VecTwo ArchitecturesContinuous bag-of-words (CBOW) : 주변 단어들로 한 단어를 예측Skip-gram : 한 단어로 주변 단어들을 예측직관적으로 생각했을 때 정보를 더 많이 받아 하나의 단어를 예측하는 CBOW가 더 성능이 좋을 것 같아 보이지만 Skip-gram이 더 좋은 성능을 보이는데, 이는 Gradient flow 관점에서 본다면 CBOW는 하나의 단어에서 주변 단어들의 gradient를 업데이트하는 반면 Skip-gram은 주변 단어들의 정보를 하나의 gradient를 업데이트하는데 사용하기.. 2024. 7. 13.
[강의노트] 05-1 Text Representation II - Distributed Representation Part 1 (NNLM) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: NNLMDistributed Representation: Word EmbeddingWord Embedding어떤 단어를 의미론적으로 유사한 단어는 서로 가까운 공간상에 위치하도록 특정 공간의 vector space로 매핑하는 것Word vectors: one-hot vector가장 단순하고 직관적인 표현특정 단어의 인덱스에 대해 그 단어가 맞으면 1, 아니면 0$w^{at} = [0,0,1, \dots , 0]$, $w^{zebra} = [0,0,0,\dots, 1]$단어 사이의 유사도가 보존되지 않는다.$(w^{hotel})^Tw^{motel} .. 2024. 7. 10.
[강의노트] 04 Text Representation I - Classic Methods 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Bag of Words어떻게 가변 길이의 문서를 고정 길이의 숫자형 벡터로 변환할 것인가?Bag of Words: MotivationDocument Representation어떻게 하나의 Document를 구조화된 vector/matrix 형태(Vector Space ModeL)로 변환할 것인가 (Transform unstructured data into structured data)Bag of Words:Idea가정: 문서들은 순서를 무시하는 단어들의 집합체이다.단어 하나 하나를 atomic symbol로 고려하여 discrete space로 표현Term-Docume.. 2024. 7. 9.
[강의노트] 02-3 Text Preprocessing - Part 3 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Syntax Analysis (구문 분석)Syntax Analysis형식 문법의 규칙을 따르는 위계구조/형태/문장구조를 분석하는 과정Parser입력 문자열을 특정한 문법에 걸맞게 변환(파악)하는 알고리즘Directionality(방향성)e.g.) top-down / bottom-upSearch strategy(탐색전략)e.g.) depth-first, breadth-firstParsing RepresentationTree vs ListMeaning문장 S는 명사절 NP와 동사절 VP로 구성된다.명사절은 이름(John)을 가진다.동사절은 동사(ate) 과 다른 명사절을 .. 2024. 6. 29.
[강의노트] 02-2 Text Preprocessing - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Lexical Analysis (어휘 분석)어휘 분석의 목적일정한 순서가 있는 characters의 조합을 token으로 변경 (token: 의미를 가지는 character strings)어휘 분석의 과정Tokenizing품사 태깅 (POS tagging)NER(named entity recognition) 개체명 인식, 명사구 인식 등 수행구조적 분석의 예시Part of speech각 토큰/단어에 대해 형태소 판별Named entity recognition (개체명 인식)e.g.) Obama: 사람, now: Date, ...Co-reference (문장 내에서 같은.. 2024. 6. 28.