타이타닉 생존자 예측¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline titanic_df = pd.read_csv('./titanic_train.csv') titanic_df.head(3) Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Flore..
와인 품질 EDA¶ https://github.com/cbrownley/foundations-for-analytics-with-python 와인의 품질에는 어떤 요소가 영향을 많이 줄지, 그 영향이 통계적으로 유의한지 알아보자 In [108]: #라이브러리 정의 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import statsmodels.api as sm import statsmodels.formula.api as smf In [23]: #데이터 읽어오기, 테이블 살짝 조정해주기 wine = pd.read_csv('./winequality-both.csv', sep=',', header=0) wine.columns ..
https://www.youtube.com/watch?v=0eCbAYX-_UQ&list=PL7ZVZgsnLwEEZcVusN-fV_sJhQHq833OS&index=1 EDA(Exploratory Data Analysis) 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정 2) 필요성 데이터가 표현하는 현상을 더 잘 이해하고, 잠재적인 문제 발견 데이터 다시 수집하거나 추가로 수집하는 등의 결정 내릴 수 있음 다양한 각도에서 살펴보면서 다양한 패턴 발견, 기존의 가설 수정하거나 새로운 가설 세울 수 있음 이후 통계적 추론 시도 가능, 예측 모델 만들 때 유용 3) 분석 과정 1. 문제 정의 ..