본문 바로가기

딥러닝과 자연어처리 (DL & NLP)/강의노트 - Text Analytics (고려대 강필성 교수님)13

[강의노트] 07-1 Topic Modeling Part 1 (LSA & pLSA) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Topic ModelingTopic ModelsTopic Extraction문서(예: 논문)들을 토픽에 맞게 분류Relation between Topics각각의 토픽들도 단어만큼의 차원으로 이루어진 연속형의 벡터로써 표현할 수 있다.토픽 간에도 더 유사한 토픽과 덜 유사한 토픽이 있다.Trend AnalysisHot Topic (최근에 연구가 활발히 진행되는 토픽)Cold Topic (상대적으로 과거에 비해 현재 연구가 덜 되는 토픽)Document RetrievalTopic Model: ApproachMatrix Factorization Approachm개의 Term.. 2024. 9. 8.
[강의노트] 06-2 Dimensionality Reduction Part 2 (LSA & t-SNE) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Feature Extraction: LSA & t-SNESingular Value Decomposition: SVD실수 행렬 또는 복소 행렬의 분해 (A factorization of a real or complex matrix)m by n (m > n) 크기의 직사각 TDM 행렬 A$$ A = U \Sigma V^T $$Properties of SVD (SVD의 특성)행렬 U와 V는 직교행렬 (Singular vectors of the matrix U and V are orthogonal)$$ U^TU = V^TV = I$$$\Sigma$ 의 특이값 (positive.. 2024. 8. 26.
[강의 노트] 06-1 Dimensionality Reduction Part 1 (Variable Selection) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Dimensionality ReductionCommon features of text data일반적으로 전부 Bag-of-words 방식으로 표현된 Document는 매우 많은 수의 terms(words)를 가지고 있음그중 일부만인 text mining task에 relevant하다Problem 1: High dimensionality (N.terms >> N.documents)통계학적인 관점에서 관측치의 수가 최소한 변수의 수보다는 많아야 다중 공산성과 같은 여러 통계적 가정을 만족할 가능성이 있음 -> 전통적인 통계적 방법론을 사용하기에 무리가 있다Problem 2.. 2024. 8. 26.
[강의노트] 05-4 Text Representation II - Distributed Representation Part 4 (Doc2Vec & Others) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Sentence/Paragraph/Document-levelDocument EmbeddingParagraph Vector model: Distributed Memory (PV-DM) modelParagraph 마다 id를 가지고 있으며, 입력으로 단어와 함께 들어감입력하는 단어의 개수는 window size에 해당하는 hyperparameter다음 sequence에 해당하는 단어가 무엇일지 예측하는 모델Paragraph vectors는 해당하는 paragraph에 대응하는 단어를 가지고 modeling할 때는 항상 같은 값을 가진다.Word vectors는 모든 par.. 2024. 7. 26.
[강의노트] 05-3 Text Representation II - Distributed Representation Part 3 (GloVe & FastText) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다. Word-level: GloVeLimitations of Word2Vec과도하게 사용된 단어에 대해 너무 많이 학습e.g.) 관사 the가 나올 확률이 너무 높음 P(w|the)Glovematrix factorization method 기반V x V 크기의 큰 행렬$X_{ij}$ = i가 j와 함께 등장하는 빈도, $X_i$ = 전체 코퍼스에서 단어 i가 등장한 횟수$P_{ij} = P(j|i) = \frac{X_{ij}}{X_i}$Motivation특정 k라는 단어가 ice와 연관이 높고 steam과는 아니라면 $P_{ik} / P_{jk}$ 가 커야함단어 k가 .. 2024. 7. 20.
[강의노트] 05-2 Text Representation II - Distributed Representation Part 2 (Word2Vec) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: Word2VecTwo ArchitecturesContinuous bag-of-words (CBOW) : 주변 단어들로 한 단어를 예측Skip-gram : 한 단어로 주변 단어들을 예측직관적으로 생각했을 때 정보를 더 많이 받아 하나의 단어를 예측하는 CBOW가 더 성능이 좋을 것 같아 보이지만 Skip-gram이 더 좋은 성능을 보이는데, 이는 Gradient flow 관점에서 본다면 CBOW는 하나의 단어에서 주변 단어들의 gradient를 업데이트하는 반면 Skip-gram은 주변 단어들의 정보를 하나의 gradient를 업데이트하는데 사용하기.. 2024. 7. 13.