결손 데이터 처리하기¶ 머신러닝은 NaN 값을 처리하지 않으므로 다른 값으로 대체해야 함 결손 여부 확인: isna( ) 다른 값으로 대체: fillna( ) In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female ..
정렬, Aggregation 함수, GroupBy 적용¶ sort_values( )¶ 주요 파라미터: by='칼럼명', ascending=True(기본 오름차순), inplace=False(호출한 df는 그대로 유지하면서 정렬된 df를 결과로 반환) In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cuming..
데이터 셀렉션 및 필터링¶ dataframe뒤의 []는 '칼럼 지정 연산자' In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikki..
Index 객체¶ In [5]: import pandas as pd import numpy as np titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[5]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikkinen, Miss. Lai..
Pandas https://pandas.pydata.org/docs/user_guide/index.html#user-guide 테이블 형태의(행렬 구성) 정형 데이터 분석에 최적화 DataFrame 형태로 모든 데이터 표현 가능 다양한 정형 데이터를 통합 관리 ex) json, html, csv, xlsx,,, Excel에서 제공하는 연산 기능 거의 다 제공 DataFrame 2차원 테이블, 한 줄(행, 열)을 series라 함(series의 모임이 dataframe) pandas의 한 열은 하나의 속성을 나타내므로 같은 개념은 동일한 데이터 타입을 가진다 In [3]: # s는 1, 3, 5, 6, 8을 원소로 가지는 pandas.Series pd.Series([1,3,5,6,8]) #series는 하..