본문 바로가기
반응형

자연어처리13

[강의노트] 05-1 Text Representation II - Distributed Representation Part 1 (NNLM) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: NNLMDistributed Representation: Word EmbeddingWord Embedding어떤 단어를 의미론적으로 유사한 단어는 서로 가까운 공간상에 위치하도록 특정 공간의 vector space로 매핑하는 것Word vectors: one-hot vector가장 단순하고 직관적인 표현특정 단어의 인덱스에 대해 그 단어가 맞으면 1, 아니면 0$w^{at} = [0,0,1, \dots , 0]$, $w^{zebra} = [0,0,0,\dots, 1]$단어 사이의 유사도가 보존되지 않는다.$(w^{hotel})^Tw^{motel} .. 2024. 7. 10.
[강의노트] 04 Text Representation I - Classic Methods 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Bag of Words어떻게 가변 길이의 문서를 고정 길이의 숫자형 벡터로 변환할 것인가?Bag of Words: MotivationDocument Representation어떻게 하나의 Document를 구조화된 vector/matrix 형태(Vector Space ModeL)로 변환할 것인가 (Transform unstructured data into structured data)Bag of Words:Idea가정: 문서들은 순서를 무시하는 단어들의 집합체이다.단어 하나 하나를 atomic symbol로 고려하여 discrete space로 표현Term-Docume.. 2024. 7. 9.
[강의노트] 02-3 Text Preprocessing - Part 3 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Syntax Analysis (구문 분석)Syntax Analysis형식 문법의 규칙을 따르는 위계구조/형태/문장구조를 분석하는 과정Parser입력 문자열을 특정한 문법에 걸맞게 변환(파악)하는 알고리즘Directionality(방향성)e.g.) top-down / bottom-upSearch strategy(탐색전략)e.g.) depth-first, breadth-firstParsing RepresentationTree vs ListMeaning문장 S는 명사절 NP와 동사절 VP로 구성된다.명사절은 이름(John)을 가진다.동사절은 동사(ate) 과 다른 명사절을 .. 2024. 6. 29.
[강의노트] 02-2 Text Preprocessing - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Lexical Analysis (어휘 분석)어휘 분석의 목적일정한 순서가 있는 characters의 조합을 token으로 변경 (token: 의미를 가지는 character strings)어휘 분석의 과정Tokenizing품사 태깅 (POS tagging)NER(named entity recognition) 개체명 인식, 명사구 인식 등 수행구조적 분석의 예시Part of speech각 토큰/단어에 대해 형태소 판별Named entity recognition (개체명 인식)e.g.) Obama: 사람, now: Date, ...Co-reference (문장 내에서 같은.. 2024. 6. 28.
[강의노트] 02-1 Text Preprocessing - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Introduction to NLPNatural Language Processing음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침Classical categorization of NLPPhonology (음운 분석)Speech to Text (STT)Speech RecognitionText to Speech (TTS)Morphology (형태소 분석)Syntax (구조적인 관계 분석)Semantics (의미론적 분석)Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rar.. 2024. 6. 27.
[강의노트] 01-2 Introduction to Text Analytics - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.TA Process 1: Collection & PreprocessingDecide What to Mine데이터셋 수집 혹은 수집된 데이터셋 선택Text Preprocessing Level 0: TextRemove unnecessary information from the collected dataDo not remove meta-data (Newspapaer article: author, date, category, language, etc), which contains significant information on the textMeta-data can be us.. 2024. 6. 26.
반응형