본문 바로가기
반응형

네이버 부스트캠프 AI Tech 7기/Machine Learning Basic4

정형 데이터 전처리 정형 데이터범주형 데이터: 순서형 / 명목형수치형 데이터: 이산형 / 연속형대푯값평균 / 총합기댓값 (가중평균)최빈값중앙값사분위값절사평균1. 범주형 데이터집단 간 분석에 용이한 데이터명목형 데이터순서 상관없이 항목으로 구분순서형 데이터각 값이 우위 등 순서가 존재(수치형과 헷갈린다면 산술 연산이 적용되는지 확인)e.g. 별점 4점은 별점 2점보다 2배 좋은가?명목형 데이터 전처리Label Encodingsklearn.preprocessing.OrdinalEncoder()없는 레이블에 대해 미리 전처리 필요[0,1,2] 등으로 라벨링 한다면 자체적인 순서 발생One-Hot Encodingsklearn.preprocessing.OneHotEncoder()다수 범주가 동시에 포함될 수 있는 경우에도 효율적인 .. 2024. 8. 23.
PyTorch로 직접 구현하는 Linear Regression 들어가며이 글을 읽기 이전에 Linear Regression에 대한 전반적인 개념 또는 Numpy 구현에 대해 참고하고자 한다면 다음 링크를 먼저 읽고 오는 것을 추천한다. Numpy로 직접 구현하는 Linear RegressionRegression회귀 분석: 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법변수: 값이 변하는 데이터 요소 또는 속성독립변수(설명변수) : 원인(x, input)종속변ohge.tistory.comIris 데이터 불러오기from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split# iris 데이터 불러오기iris = load_iris().. 2024. 8. 19.
Numpy로 직접 구현하는 Linear Regression Regression회귀 분석: 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법변수: 값이 변하는 데이터 요소 또는 속성독립변수(설명변수) : 원인(x, input)종속변수(응답변수): 결과(y, output)Linear Regression독립 변수 하나 이상 + 종속 변수 하나 의 관계를 모델링하는 통계적 방법$y=mx+b$가정선형성: 종속 변수와 독립 변수간의 관계가 선형적독립성: 관측값들은 서로 독립적 (잔차(residual, 오차의 추정치)들이 무작위 분포)등분산성: 오류의 분산이 일정 (잔차들이 일정한 분포를 보임)정규성: 오류가 정규분포를 따름최소 제곱법(OLS) 방법예측된 값 $\hat{y} = Xw$와 실제 값 y 사이의 차이(잔차)를 최소화하는 가중.. 2024. 8. 18.
PyTorch 입문 - Tensor 기본 함수와 연산 이해하기 PyTorch를 위한 배경지식표본분산연속 균등 분포표준 정규 분포상관 관계PyTorch 자료형과 TensorData Type텐서 생성시 다음과 같이 데이터 타입을 지정할 수 있다.t = torch.tensor(10.2, dtype=torch.float64)Type Casting (타입 변환)은 다음과 같다.Tensort = t.type(torch.IntTensor) # torch.FloatTensor, torch.DoubleTensor0D tensor (=Scalar)1D tensor (=Vector)2D tensor (=Matrix)3D tensor4,5,6...D tensorTensor Basic Functionsmin(), max(), sum(), prod(), mean(), var(), std().. 2024. 8. 9.
반응형