네이버 부스트캠프 AI Tech 7기14 [네이버 부스트캠프 AI Tech 7기] Level2 MRC - ODQA 프로젝트 1주차 회고 네이버 부스트캠프 AI Tech 8주차강의 & 세션이번 주차는 MRC(Machine Reading Comprehension)이다. ODQA(Open-domain Question Answering) Task를 풀기 위한 여러 이론 강의들로 구성되어 있었다. ODQA는 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾기 때문에 질문에 관련된 문서를 찾아주는 "retriever" 단계와 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader" 단계로 구성된다. 약 3주 동안 진행될 프로젝트의 이론 강의이기 때문에 서둘러 듣고 바로 프로젝트를 시작하게 되었다.프로젝트두번째 프로젝트이자 Level2의 첫 번째 프로젝트가 밝았다.. 2024. 10. 12. 네이버 부스트캠프 AI Tech 7기 Level1 STS Competition 프로젝트 최종 리포트 Level1를 마무리하는 프로젝트로 진행했던 STS(Semantic Text Similarity) 대회가 끝났다.우리 팀에서는 기록보다는 end-to-end로 경험하는 것을 목표로 하며 하고 싶은 파트를 자유롭게 진행했다.NLP 코스의 첫 프로젝트에서 어떤 시행착오를 겪었으며, 무엇을 배웠고, 아쉬웠던 점을 차례로 작성하고자 한다.대회 소개특징설명목표의미 유사도 판별(Semantic Text Similarity, STS): 두 문장이 의미적으로 얼마나 유사한지를 수치화하는 자연어처리 태스크평가지표피어슨 상관 계수(두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치)를 사용규칙일일 제출횟수는 '팀 단위 10회'로 제한 외부 데이터셋 사용 금지기간2024.09.11 10:00~2024.09.26 19:.. 2024. 9. 27. [NLP] Word Embedding - Word2Vec (CBOW vs Skip-gram) Word EmbeddingOne-Hot Encoding단어를 Categorical variable로 Encoding한 벡터로 표현단어는 하나의 차원이 각각의 단어를 뜻하도록 표현할 수 있음 (다른 모든 차원은 0인 Sparse representation)단어들 간의 내적은 항상 0이며, 유클리드 거리는 항상 $\sqrt2$Distributed Vector (Dense Vector)원-핫 인코딩의 문제점: 희소 표현(sparse representation)단어의 의미를 다차원 공간에 0이 아닌 값의 형태로 표현(벡터화): 분산 표현(distributed representation)비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다는 분포 가설(distributional hypothesis)을 따름유클리.. 2024. 8. 29. 정형 데이터 전처리 정형 데이터범주형 데이터: 순서형 / 명목형수치형 데이터: 이산형 / 연속형대푯값평균 / 총합기댓값 (가중평균)최빈값중앙값사분위값절사평균1. 범주형 데이터집단 간 분석에 용이한 데이터명목형 데이터순서 상관없이 항목으로 구분순서형 데이터각 값이 우위 등 순서가 존재(수치형과 헷갈린다면 산술 연산이 적용되는지 확인)e.g. 별점 4점은 별점 2점보다 2배 좋은가?명목형 데이터 전처리Label Encodingsklearn.preprocessing.OrdinalEncoder()없는 레이블에 대해 미리 전처리 필요[0,1,2] 등으로 라벨링 한다면 자체적인 순서 발생One-Hot Encodingsklearn.preprocessing.OneHotEncoder()다수 범주가 동시에 포함될 수 있는 경우에도 효율적인 .. 2024. 8. 23. PyTorch로 직접 구현하는 Linear Regression 들어가며이 글을 읽기 이전에 Linear Regression에 대한 전반적인 개념 또는 Numpy 구현에 대해 참고하고자 한다면 다음 링크를 먼저 읽고 오는 것을 추천한다. Numpy로 직접 구현하는 Linear RegressionRegression회귀 분석: 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법변수: 값이 변하는 데이터 요소 또는 속성독립변수(설명변수) : 원인(x, input)종속변ohge.tistory.comIris 데이터 불러오기from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split# iris 데이터 불러오기iris = load_iris().. 2024. 8. 19. Numpy로 직접 구현하는 Linear Regression Regression회귀 분석: 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법변수: 값이 변하는 데이터 요소 또는 속성독립변수(설명변수) : 원인(x, input)종속변수(응답변수): 결과(y, output)Linear Regression독립 변수 하나 이상 + 종속 변수 하나 의 관계를 모델링하는 통계적 방법$y=mx+b$가정선형성: 종속 변수와 독립 변수간의 관계가 선형적독립성: 관측값들은 서로 독립적 (잔차(residual, 오차의 추정치)들이 무작위 분포)등분산성: 오류의 분산이 일정 (잔차들이 일정한 분포를 보임)정규성: 오류가 정규분포를 따름최소 제곱법(OLS) 방법예측된 값 $\hat{y} = Xw$와 실제 값 y 사이의 차이(잔차)를 최소화하는 가중.. 2024. 8. 18. 이전 1 2 3 다음