본문 바로가기
반응형

분류 전체보기50

[TWIL] 9월 2주차 스터디 This Week네이버 부스트캠프 AI Tech 6주차강의 & 세션이번 주차는 프로젝트를 위한 강의들이었다. Linux, streamlit 등에 대해 배웠다.또한 NLP Task들에 대해 배웠다. N21, N2N, N2M 같이 출력 갯수로 Task를 분류하는 표현은 처음 들어봐서 검색해봤는데 교수님이 주로 사용하시는 표현 같았다. (전 기수들 포스팅이 잔뜩)자연어 처리 문제 개관 — Application 관점 여기 교수님이 직접 작성하신 포스팅이 있는데 참고하면 좋겠다. 교수님이 글을 잘 쓰셔서 다른 포스팅들 또한 매우 도움된다. 프로젝트대망의 첫 프로젝트 주차가 밝았다. NLP stage는 문장 간 유사도 측정 테스크를 푸는 프로젝트를 진행한다.각 팀에는 4대의 V100 32G GPU 서버가 주어지고.. 2024. 9. 13.
[강의자료] 07-1 Topic Modeling Part 1 (LSA & pLSA) 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의 비정형데이터분석 (Text Analytics)을 듣고 정리한 강의노트입니다.Topic ModelingTopic ModelsTopic Extraction문서(예: 논문)들을 토픽에 맞게 분류Relation between Topics각각의 토픽들도 단어만큼의 차원으로 이루어진 연속형의 벡터로써 표현할 수 있다.토픽 간에도 더 유사한 토픽과 덜 유사한 토픽이 있다.Trend AnalysisHot Topic (최근에 연구가 활발히 진행되는 토픽)Cold Topic (상대적으로 과거에 비해 현재 연구가 덜 되는 토픽)Document RetrievalTopic Model: ApproachMatrix Factorization Approachm개의 Term.. 2024. 9. 8.
[TWIL] 9월 1주차 스터디 This Week네이버 부스트캠프 AI Tech 5주차요즘 멘토님이 알고리즘 문제 상황을 정의해주고 풀어보라고 공유해주시는데 그 과정이 코딩 인터뷰 과정 같아서 생각할 부분이 많아 좋다.이번 주는 위상 정렬 알고리즘 문제를 다뤘다. 이름이 주는 위압감에 비해 단순한 알고리즘이다. 과제하느라 시간을 많이 쏟았다. Attention Mechanism을 구현하는 과제였는데, 행렬 연산이 아직 미숙하다.행렬 연산에 좀 더 익숙해질 필요가 있어서 주말을 활용하여 과제했던 내용과 행렬 연산 부분을 정리 중이다. 어짜피 Transformer 모델은 꾸준히 나오는 내용이니까 조급해 하지말고 조금씩 살을 붙여가며 공부하자. Text Analytics (고려대 강필성 교수님) 강의이번 주는 강의를 2개 들었고, 남은.. 2024. 9. 8.
[회고] 2024년 8월 8월 한 것부스트캠프 AI Tech 7기 1~4 주차(매주 학습했던 내용 중 중요하거나 정리하고 싶은 토픽 하나를 골라 정리하고 있다.)네이버 부스트캠프 AI Tech 7기내가 가장 시간과 에너지를 많이 쏟고 있는 메인 일정이다. 8월부터 2월까지의 교육 중 첫 한달이 마무리되었다.교육의 질과 일정은 참 만족스럽지만 아쉬운 점이 있다면, 세션이 많아 공부할 시간이 부족한 구간이 생긴다는 점? 그래서 매일 같은 양을 할당하면 절대 안되고, 여유될 때 미리미리 해치워야 하는 점이 있다.스스로에 대한 한달을 평가했을 때 70점 정도 주고 싶다.잘한 점팀원들과 친해졌고 서로 학습 내용을 공유하며 도움을 주고받고 있다는 점(나의 노력보단 팀원들의 노력이 컸지만)운동이나 취미 생활과 병행하면서 밀리지 않고 일정을 .. 2024. 9. 3.
[TWIL] 8월 4주차 스터디 This Week네이버 부스트캠프 AI Tech 4주차팀원들과 많이 친해졌다. 사담도 나누고 학습 내용도 공유할 수 있는 동료가 생겨서 좋다.이번 주는 깃허브 특강이 있어 많은 양을 공부하지는 못했다. 다음 주는 좀 더 개인 공부할 시간이 많으니 더 열심히 해야겠다. [NLP] Word Embedding - Word2Vec (CBOW vs Skip-gram)밑바닥부터 시작하는 딥러닝 2팀원이 이 책을 사서 공부한 내용을 정리한 포스팅을 보고 내용이 괜찮은 것 같아 전자 도서관에서 빌려 보고 있다.이번 주는 Word2Vec이랑 RNN 부분 참고하였다.처음부터 끝까지 쭉 보지는 않을 것 같고(이미 정주행하는 강의도 있고) 잘 이해가 안되나 참고 자료 필요한 부분 발췌하여 참고용으로 공부할 것 같다. Te.. 2024. 9. 3.
[NLP] Word Embedding - Word2Vec (CBOW vs Skip-gram) Word EmbeddingOne-Hot Encoding단어를 Categorical variable로 Encoding한 벡터로 표현단어는 하나의 차원이 각각의 단어를 뜻하도록 표현할 수 있음 (다른 모든 차원은 0인 Sparse representation)단어들 간의 내적은 항상 0이며, 유클리드 거리는 항상 $\sqrt2$Distributed Vector (Dense Vector)원-핫 인코딩의 문제점: 희소 표현(sparse representation)단어의 의미를 다차원 공간에 0이 아닌 값의 형태로 표현(벡터화): 분산 표현(distributed representation)비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다는 분포 가설(distributional hypothesis)을 따름유클리.. 2024. 8. 29.
반응형