네이버 부스트캠프 AI Tech 7기/National Language Processing (NLP)1 [NLP] Word Embedding - Word2Vec (CBOW vs Skip-gram) Word EmbeddingOne-Hot Encoding단어를 Categorical variable로 Encoding한 벡터로 표현단어는 하나의 차원이 각각의 단어를 뜻하도록 표현할 수 있음 (다른 모든 차원은 0인 Sparse representation)단어들 간의 내적은 항상 0이며, 유클리드 거리는 항상 $\sqrt2$Distributed Vector (Dense Vector)원-핫 인코딩의 문제점: 희소 표현(sparse representation)단어의 의미를 다차원 공간에 0이 아닌 값의 형태로 표현(벡터화): 분산 표현(distributed representation)비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다는 분포 가설(distributional hypothesis)을 따름유클리.. 2024. 8. 29. 이전 1 다음