반응형
준비물
import pandas as pd
import numpy as np
from google.colab import drive
drive.mount('/content/gdrive')
request_file_path = "/content/gdrive/My Drive/Colab Notebooks/IntroDataAnalysis/311-service-requests.csv"
data = pd.read_csv(request_file_path)
data['column'].unique().shape #중복X 유일한 값 개수 확인
Missing values?
- NA: Not applicable
- NaN: Not a Number (Missing numerical daa)
- None: a null value or no value in Python (Pythonic missing data)
Use NaN to represent missing values.
data.isna()
data.isnull()
data.fillna(0)
data.dropna()
Missing Data 확인시 Text Mining
꼭 비어있는 null n/a 값이 아니더라도 정해진 형식에 맞지 않는 데이터들이 존재
ex)전화번호 XXX-XXXX-XXXX 같은 경우
str.contains('-')
str.len()
str.slice(0,3)
등을 이용 (자세한 내용은 따로 다룰예정)
예시)
is_close = zips.str.startswith('0') | zips.str.startswith('1')
is_far = ~(is_close.fillna(True).astype(bool)) # ZIP codes that do not start with 0 or 1
반응형
'대학교 > 데이터분석개론' 카테고리의 다른 글
5-4.Python Pandas_DataHandling (0) | 2020.06.12 |
---|---|
5.2-Python Pandas_DataFrame (0) | 2020.06.12 |
5-1.Python Pandas_Series (0) | 2020.06.12 |
4.Pyplot Visualization (0) | 2020.06.08 |
3.Python Numpy (0) | 2020.06.08 |