딥러닝과 자연어처리 (DL & NLP)15 [강의노트] 07-1 Topic Modeling Part 1 (LSA & pLSA) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Topic ModelingTopic ModelsTopic Extraction문서(예: 논문)들을 토픽에 맞게 분류Relation between Topics각각의 토픽들도 단어만큼의 차원으로 이루어진 연속형의 벡터로써 표현할 수 있다.토픽 간에도 더 유사한 토픽과 덜 유사한 토픽이 있다.Trend AnalysisHot Topic (최근에 연구가 활발히 진행되는 토픽)Cold Topic (상대적으로 과거에 비해 현재 연구가 덜 되는 토픽)Document RetrievalTopic Model: ApproachMatrix Factorization Approachm개의 Term.. 2024. 9. 8. [강의노트] 06-2 Dimensionality Reduction Part 2 (LSA & t-SNE) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Feature Extraction: LSA & t-SNESingular Value Decomposition: SVD실수 행렬 또는 복소 행렬의 분해 (A factorization of a real or complex matrix)m by n (m > n) 크기의 직사각 TDM 행렬 A$$ A = U \Sigma V^T $$Properties of SVD (SVD의 특성)행렬 U와 V는 직교행렬 (Singular vectors of the matrix U and V are orthogonal)$$ U^TU = V^TV = I$$$\Sigma$ 의 특이값 (positive.. 2024. 8. 26. [강의 노트] 06-1 Dimensionality Reduction Part 1 (Variable Selection) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Dimensionality ReductionCommon features of text data일반적으로 전부 Bag-of-words 방식으로 표현된 Document는 매우 많은 수의 terms(words)를 가지고 있음그중 일부만인 text mining task에 relevant하다Problem 1: High dimensionality (N.terms >> N.documents)통계학적인 관점에서 관측치의 수가 최소한 변수의 수보다는 많아야 다중 공산성과 같은 여러 통계적 가정을 만족할 가능성이 있음 -> 전통적인 통계적 방법론을 사용하기에 무리가 있다Problem 2.. 2024. 8. 26. [논문읽기] RNN - Recurrent neural network based language model (2010) 논문 링크: https://www.fit.vut.cz/research/group/speech/public/publi/2010/mikolov_interspeech2010_IS100722.pdfAbstractSOTA backoff 언어 모델 대비 혼란도(perplexity)를 약 50% 줄일 수 있다.음성 인식 실험에서 Wall Street Journal task에서 동일 데이터일 때 오류율 18% 감소, NIST RT05 task에서 더 적은 데이터로 오류율 5% 감소했다.모델 훈련시 높은 계산 복잡도를 가진다는 점을 제외하면, RNN은 표준 n-gram 기술에 비해 우수하다.1. IntroductionSequential data Prediction(순차적 데이터 예측)통계적 언어 모델링의 목표는 주어진 .. 2024. 8. 18. [강의노트] 05-4 Text Representation II - Distributed Representation Part 4 (Doc2Vec & Others) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Sentence/Paragraph/Document-levelDocument EmbeddingParagraph Vector model: Distributed Memory (PV-DM) modelParagraph 마다 id를 가지고 있으며, 입력으로 단어와 함께 들어감입력하는 단어의 개수는 window size에 해당하는 hyperparameter다음 sequence에 해당하는 단어가 무엇일지 예측하는 모델Paragraph vectors는 해당하는 paragraph에 대응하는 단어를 가지고 modeling할 때는 항상 같은 값을 가진다.Word vectors는 모든 par.. 2024. 7. 26. [강의노트] 05-4 Text Representation II - Distributed Representation Part 4 (Doc2Vec & Others) Sentence/Paragraph/Document-levelDocument EmbeddingParagraph Vector model: Distributed Memory (PV-DM) modelParagraph 마다 id를 가지고 있으며, 입력으로 단어와 함께 들어감입력하는 단어의 개수는 window size에 해당하는 hyperparameter다음 sequence에 해당하는 단어가 무엇일지 예측하는 모델Paragraph vectors는 해당하는 paragraph에 대응하는 단어를 가지고 modeling할 때는 항상 같은 값을 가진다.Word vectors는 모든 paragraph에 공유된다. (A 문서의 cat과 B 문서의 cat이 같다.)e.g.) The cat sat on the tablePid + .. 2024. 7. 21. 이전 1 2 3 다음