본문 바로가기

대학교/데이터분석개론8

5-4.Python Pandas_DataHandling 준비물 import pandas as pd import numpy as np scv읽고 df #우선적으로 데이터 눈으로 확인 df.shape # 데이터 형태 (행X열) df.head() df.tail() #앞,뒤로 확인 df.describe() #cnt,mean,std, min,max, 상하위 n%등 간단한 통계 확인 df['Area'] # 다룰 특정 행 선택 df[df['Area'].str.contains("Korea")] # 한국에 대한 데이터 확인 df['Item'].unique().shape # 유일값 몇개인지 확인 plot_data_tmp = plot_data.groupby(by='Area').sum() # 같은 Area에 대해 다른 cloumn값들을 합해서 나타냄 ※ Groupby DataFr.. 2020. 6. 12.
5-3.Python Pandas_DataCleaning 준비물 import pandas as pd import numpy as np from google.colab import drive drive.mount('/content/gdrive') request_file_path = "/content/gdrive/My Drive/Colab Notebooks/IntroDataAnalysis/311-service-requests.csv" data = pd.read_csv(request_file_path) data['column'].unique().shape #중복X 유일한 값 개수 확인 Missing values? NA: Not applicable NaN: Not a Number (Missing numerical daa) None: a null value or no .. 2020. 6. 12.
5.2-Python Pandas_DataFrame 준비물 import pandas as pd import numpy as np Viewing Data df.head() df.tail() df.index df.columns df.values df.describe() df.sort_values(by='b") # df.sort_values(by='B', ascending=False) b 라는 특정 컬럼의 value를 기준으로 정렬 Selection df['A'] df[['A','C']] #대괄호 두개에 유의 #Slicing rows df[0:3] #Select by label(s) df.loc (라벨값 기반의 2차원 인덱싱) df.loc[행 인덱싱값] df.loc[행 인덱싱값, 열 인덱싱값] 예시) df.loc[date[0]] df.loc[:,['A','B'.. 2020. 6. 12.
5-1.Python Pandas_Series 준비물 import pandas as pd from pandas import Series, DataFrame Series 란? array같은 1차원 object Series 생성 data = pd.Series([5000, 6000,7000, 8000]) coffee = pd.Series([5000, 6000, 7000, 6500], index=['americano', 'cappuccino', 'frappuccino', 'caffe latte']) coffee2 = pd.Series({'Flat White': 5500, 'Cold Brew': 7000, 'Caffe Mocha': 6500}) print(coffee) >>>americano 5000 >>>cappuccino 6000 >>>frappuccin.. 2020. 6. 12.
4.Pyplot Visualization 준비물 %matplotlib inline import matplotlib.pyplot as plt import numpy as np Line graph plt.plot(x축 리스트,y축 리스트, color='', marker='', linestyle='solid') plt.title('') plt.ylabel('') plt.xlabel('') plt.show() plt.legend() #범주박스(범례) plt.legend(loc='best') # 'best', 'upper right', 'upper left', 'lower left', 'lower right', # 'right', 'center left', 'center right', 'lower center', 'upper center', 'cente.. 2020. 6. 8.
3.Python Numpy Numpy란? pandas와 matplotlib 사용에 있어서 꼭 필요한 라이브러리 기본적으로 array 단위로 "데이터 연산" 을 돕는다. array 정의하기 1. 리스트 이용 arr = np.array(list) 2. numpy 함수이용 np.zeros(10) # 0이 10개짜리 array np.ones((2,10)) # 0이 2*10 개짜리 array np.eye(3) # diagonal matrix np.arange() # 1차원 array array 관련함수 arr.shape # 형태(크기) 확인 arr.dtype #자료형 확인 arr.astype(np.float64) # 자료형 바꿈 array operations 1. array끼리 연산 사칙연산이 각 요소별로 진행 2. 스칼라 연산 각 요소에.. 2020. 6. 8.