apply lambda 식으로 데이터 가공¶ 칼럼에 일괄적으로 데이터 가공을 하는 것이 속도 면에서 빠르고 복잡한 데이터 가공이 필요할 경우 이용 In [2]: def get_square(a): return a**2 print('3의 제곱은:', get_square(3)) 3의 제곱은: 9 lambda는 이런 함수 선언과 함수 내의 처리를 한 줄의 식으로 쉽게 변환하는 식임 : 로 입력 인자와 반환될 입력 인자의 계산식(반환값)을 분리함 여러 개의 값을 입력 인자로 사용해야 할 때, map( )함수과 같이 씀 In [3]: lambda_square = lambda x : x ** 2 print('3의 제곱은:', lambda_square(3)) 3의 제곱은: 9 In [5]: a = [1, 2, 3] s..
결손 데이터 처리하기¶ 머신러닝은 NaN 값을 처리하지 않으므로 다른 값으로 대체해야 함 결손 여부 확인: isna( ) 다른 값으로 대체: fillna( ) In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female ..
정렬, Aggregation 함수, GroupBy 적용¶ sort_values( )¶ 주요 파라미터: by='칼럼명', ascending=True(기본 오름차순), inplace=False(호출한 df는 그대로 유지하면서 정렬된 df를 결과로 반환) In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cuming..
데이터 셀렉션 및 필터링¶ dataframe뒤의 []는 '칼럼 지정 연산자' In [1]: import pandas as pd titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikki..
Index 객체¶ In [5]: import pandas as pd import numpy as np titanic_df = pd.read_csv('./titanic_train.csv') titanic_df Out[5]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikkinen, Miss. Lai..
Pandas https://pandas.pydata.org/docs/user_guide/index.html#user-guide 테이블 형태의(행렬 구성) 정형 데이터 분석에 최적화 DataFrame 형태로 모든 데이터 표현 가능 다양한 정형 데이터를 통합 관리 ex) json, html, csv, xlsx,,, Excel에서 제공하는 연산 기능 거의 다 제공 DataFrame 2차원 테이블, 한 줄(행, 열)을 series라 함(series의 모임이 dataframe) pandas의 한 열은 하나의 속성을 나타내므로 같은 개념은 동일한 데이터 타입을 가진다 In [3]: # s는 1, 3, 5, 6, 8을 원소로 가지는 pandas.Series pd.Series([1,3,5,6,8]) #series는 하..