본문 바로가기
반응형

분류 전체보기54

[강의노트] 05-3 Text Representation II - Distributed Representation Part 3 (GloVe & FastText) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다. Word-level: GloVeLimitations of Word2Vec과도하게 사용된 단어에 대해 너무 많이 학습e.g.) 관사 the가 나올 확률이 너무 높음 P(w|the)Glovematrix factorization method 기반V x V 크기의 큰 행렬$X_{ij}$ = i가 j와 함께 등장하는 빈도, $X_i$ = 전체 코퍼스에서 단어 i가 등장한 횟수$P_{ij} = P(j|i) = \frac{X_{ij}}{X_i}$Motivation특정 k라는 단어가 ice와 연관이 높고 steam과는 아니라면 $P_{ik} / P_{jk}$ 가 커야함단어 k가 .. 2024. 7. 20.
[강의노트] 05-2 Text Representation II - Distributed Representation Part 2 (Word2Vec) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: Word2VecTwo ArchitecturesContinuous bag-of-words (CBOW) : 주변 단어들로 한 단어를 예측Skip-gram : 한 단어로 주변 단어들을 예측직관적으로 생각했을 때 정보를 더 많이 받아 하나의 단어를 예측하는 CBOW가 더 성능이 좋을 것 같아 보이지만 Skip-gram이 더 좋은 성능을 보이는데, 이는 Gradient flow 관점에서 본다면 CBOW는 하나의 단어에서 주변 단어들의 gradient를 업데이트하는 반면 Skip-gram은 주변 단어들의 정보를 하나의 gradient를 업데이트하는데 사용하기.. 2024. 7. 13.
[강의노트] 05-1 Text Representation II - Distributed Representation Part 1 (NNLM) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Word-level: NNLMDistributed Representation: Word EmbeddingWord Embedding어떤 단어를 의미론적으로 유사한 단어는 서로 가까운 공간상에 위치하도록 특정 공간의 vector space로 매핑하는 것Word vectors: one-hot vector가장 단순하고 직관적인 표현특정 단어의 인덱스에 대해 그 단어가 맞으면 1, 아니면 0$w^{at} = [0,0,1, \dots , 0]$, $w^{zebra} = [0,0,0,\dots, 1]$단어 사이의 유사도가 보존되지 않는다.$(w^{hotel})^Tw^{motel} .. 2024. 7. 10.
[강의노트] 04 Text Representation I - Classic Methods 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Bag of Words어떻게 가변 길이의 문서를 고정 길이의 숫자형 벡터로 변환할 것인가?Bag of Words: MotivationDocument Representation어떻게 하나의 Document를 구조화된 vector/matrix 형태(Vector Space ModeL)로 변환할 것인가 (Transform unstructured data into structured data)Bag of Words:Idea가정: 문서들은 순서를 무시하는 단어들의 집합체이다.단어 하나 하나를 atomic symbol로 고려하여 discrete space로 표현Term-Docume.. 2024. 7. 9.
[강의노트] 02-3 Text Preprocessing - Part 3 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Syntax Analysis (구문 분석)Syntax Analysis형식 문법의 규칙을 따르는 위계구조/형태/문장구조를 분석하는 과정Parser입력 문자열을 특정한 문법에 걸맞게 변환(파악)하는 알고리즘Directionality(방향성)e.g.) top-down / bottom-upSearch strategy(탐색전략)e.g.) depth-first, breadth-firstParsing RepresentationTree vs ListMeaning문장 S는 명사절 NP와 동사절 VP로 구성된다.명사절은 이름(John)을 가진다.동사절은 동사(ate) 과 다른 명사절을 .. 2024. 6. 29.
[회고] 2024년 6월 6월 한 것2024-1학기 종강중간고사를 망쳐서 기말에 거의 만점에 가까운 점수들을 받았지만 쉽지 않았다.여러모로 아쉬움이 남지만 한 학기동안 열심히 공부했다.고구마나 감자 싸들고 도서관 로비에서 먹으면서 밥 먹는 시간까지 아꼈다.원하는 자연어 처리 연구실에 진학하는 목표를 꼭 이루고 싶다.부스트캠프 AI Tech 지원NLP 분야로 지원했다. 프리코스를 완강하고 자기소개서를 써서 제출했다.자기소개서를 쓰는 일은 익숙하지 않아 어렵다.코딩 테스트까지는 일주일 남았으니 프리코스 복습과 알고리즘 문제 풀이에 집중할 계획이다.6월 하고 있는 것계절학기계절학기로 데이터분석기술의 이해 수업을 듣고 있다.AI 데이터 직무 소개라는 주제로 발표도 했다.내용 자체는 쉽고 교양 수준의 강의이다.고려대학교 산업경영공학부 대.. 2024. 6. 28.
반응형