nlp14 [강의노트] 07-1 Topic Modeling Part 1 (LSA & pLSA) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Topic ModelingTopic ModelsTopic Extraction문서(예: 논문)들을 토픽에 맞게 분류Relation between Topics각각의 토픽들도 단어만큼의 차원으로 이루어진 연속형의 벡터로써 표현할 수 있다.토픽 간에도 더 유사한 토픽과 덜 유사한 토픽이 있다.Trend AnalysisHot Topic (최근에 연구가 활발히 진행되는 토픽)Cold Topic (상대적으로 과거에 비해 현재 연구가 덜 되는 토픽)Document RetrievalTopic Model: ApproachMatrix Factorization Approachm개의 Term.. 2024. 9. 8. [강의노트] 06-2 Dimensionality Reduction Part 2 (LSA & t-SNE) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Feature Extraction: LSA & t-SNESingular Value Decomposition: SVD실수 행렬 또는 복소 행렬의 분해 (A factorization of a real or complex matrix)m by n (m > n) 크기의 직사각 TDM 행렬 A$$ A = U \Sigma V^T $$Properties of SVD (SVD의 특성)행렬 U와 V는 직교행렬 (Singular vectors of the matrix U and V are orthogonal)$$ U^TU = V^TV = I$$$\Sigma$ 의 특이값 (positive.. 2024. 8. 26. [강의 노트] 06-1 Dimensionality Reduction Part 1 (Variable Selection) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Dimensionality ReductionCommon features of text data일반적으로 전부 Bag-of-words 방식으로 표현된 Document는 매우 많은 수의 terms(words)를 가지고 있음그중 일부만인 text mining task에 relevant하다Problem 1: High dimensionality (N.terms >> N.documents)통계학적인 관점에서 관측치의 수가 최소한 변수의 수보다는 많아야 다중 공산성과 같은 여러 통계적 가정을 만족할 가능성이 있음 -> 전통적인 통계적 방법론을 사용하기에 무리가 있다Problem 2.. 2024. 8. 26. [강의노트] 05-4 Text Representation II - Distributed Representation Part 4 (Doc2Vec & Others) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Sentence/Paragraph/Document-levelDocument EmbeddingParagraph Vector model: Distributed Memory (PV-DM) modelParagraph 마다 id를 가지고 있으며, 입력으로 단어와 함께 들어감입력하는 단어의 개수는 window size에 해당하는 hyperparameter다음 sequence에 해당하는 단어가 무엇일지 예측하는 모델Paragraph vectors는 해당하는 paragraph에 대응하는 단어를 가지고 modeling할 때는 항상 같은 값을 가진다.Word vectors는 모든 par.. 2024. 7. 26. [강의노트] 05-4 Text Representation II - Distributed Representation Part 4 (Doc2Vec & Others) Sentence/Paragraph/Document-levelDocument EmbeddingParagraph Vector model: Distributed Memory (PV-DM) modelParagraph 마다 id를 가지고 있으며, 입력으로 단어와 함께 들어감입력하는 단어의 개수는 window size에 해당하는 hyperparameter다음 sequence에 해당하는 단어가 무엇일지 예측하는 모델Paragraph vectors는 해당하는 paragraph에 대응하는 단어를 가지고 modeling할 때는 항상 같은 값을 가진다.Word vectors는 모든 paragraph에 공유된다. (A 문서의 cat과 B 문서의 cat이 같다.)e.g.) The cat sat on the tablePid + .. 2024. 7. 21. [강의노트] 05-3 Text Representation II - Distributed Representation Part 3 (GloVe & FastText) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다. Word-level: GloVeLimitations of Word2Vec과도하게 사용된 단어에 대해 너무 많이 학습e.g.) 관사 the가 나올 확률이 너무 높음 P(w|the)Glovematrix factorization method 기반V x V 크기의 큰 행렬$X_{ij}$ = i가 j와 함께 등장하는 빈도, $X_i$ = 전체 코퍼스에서 단어 i가 등장한 횟수$P_{ij} = P(j|i) = \frac{X_{ij}}{X_i}$Motivation특정 k라는 단어가 ice와 연관이 높고 steam과는 아니라면 $P_{ik} / P_{jk}$ 가 커야함단어 k가 .. 2024. 7. 20. 이전 1 2 3 다음