본문 바로가기
대학교/데이터분석개론

5-3.Python Pandas_DataCleaning

by YS_LEE 2020. 6. 12.
반응형

준비물

import pandas as pd

import numpy as np

 

from google.colab import drive

drive.mount('/content/gdrive')

request_file_path = "/content/gdrive/My Drive/Colab Notebooks/IntroDataAnalysis/311-service-requests.csv"

data = pd.read_csv(request_file_path)

 

data['column'].unique().shape #중복X 유일한 값 개수 확인

 

Missing values?

  • NA: Not applicable
  • NaN: Not a Number (Missing numerical daa)
  • None: a null value or no value in Python (Pythonic missing data)

Use NaN to represent missing values.

 

data.isna()

data.isnull()

data.fillna(0)

data.dropna()

 

Missing Data 확인시 Text Mining

 

꼭 비어있는 null n/a 값이 아니더라도 정해진 형식에 맞지 않는 데이터들이 존재

ex)전화번호 XXX-XXXX-XXXX 같은 경우

 

str.contains('-')

str.len()

str.slice(0,3) 

 

등을 이용 (자세한 내용은 따로 다룰예정)

 

예시)

is_close = zips.str.startswith('0') | zips.str.startswith('1')

is_far = ~(is_close.fillna(True).astype(bool))  # ZIP codes that do not start with 0 or 1

 

 

반응형

'대학교 > 데이터분석개론' 카테고리의 다른 글

5-4.Python Pandas_DataHandling  (0) 2020.06.12
5.2-Python Pandas_DataFrame  (0) 2020.06.12
5-1.Python Pandas_Series  (0) 2020.06.12
4.Pyplot Visualization  (0) 2020.06.08
3.Python Numpy  (0) 2020.06.08