본문 바로가기

딥러닝과 자연어처리 (DL & NLP)15

[강의노트] 02-1 Text Preprocessing - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Introduction to NLPNatural Language Processing음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침Classical categorization of NLPPhonology (음운 분석)Speech to Text (STT)Speech RecognitionText to Speech (TTS)Morphology (형태소 분석)Syntax (구조적인 관계 분석)Semantics (의미론적 분석)Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rar.. 2024. 6. 27.
[강의노트] 01-2 Introduction to Text Analytics - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.TA Process 1: Collection & PreprocessingDecide What to Mine데이터셋 수집 혹은 수집된 데이터셋 선택Text Preprocessing Level 0: TextRemove unnecessary information from the collected dataDo not remove meta-data (Newspapaer article: author, date, category, language, etc), which contains significant information on the textMeta-data can be us.. 2024. 6. 26.
[강의노트] 01-1 Introduction to Text Analytics - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Text Analytics: Background80% 이상의 새로운 데이터는 비정형 데이터, 그 중 많은 비중을 차지하는 것이 텍스트 데이터이다.검색어에 알맞는 문서를 반환해주는 검색 엔진으로는 부족하며, 새로운 지식을 발견하는 것이 요구된다.Example: AI papers in arXiv인공지능에 관련한 논문의 수가 기하급수적으로 증가 중 (2018년 기준 약 3000편 이상)텍스트 마이닝을 통한 논문의 단어 빈도 분석Machine learning eclipses knowledge-based reasoningThe Neural-Network BoomThe rise .. 2024. 6. 24.