Data Science

Data Science/Dacon

[회귀] 제주도 도로 교통량 예측 AI 경진대회

제주도 도로 교통량 예측 AI 경진대회 https://dacon.io/competitions/official/235985/data In [51]: import pandas as pd data_info = pd.read_csv('/content/data_info.csv') data_info Out[51]: 변수명 변수 설명 0 id 아이디 1 base_date 날짜 2 day_of_week 요일 3 base_hour 시간대 4 road_in_use 도로사용여부 5 lane_count 차로수 6 road_rating 도로등급 7 multi_linked 중용구간 여부 8 connect_code 연결로 코드 9 maximum_speed_limit 최고속도제한 10 weight_restricted 통과제한하중 1..

Data Science/파이썬 머신러닝 완벽 가이드

[kaggle] 타이타닉 생존률 예측하기 (2) - 모델링

In [11]: #남은 문자열 피처들을 숫자형으로 인코딩하기 from sklearn.preprocessing import LabelEncoder #여러 칼럼을 encode_feature() 함수를 생성하여 한번에 변환하기 def encode_features(dataDF): features = ['Cabin', 'Sex', 'Embarked'] for feature in features: le = LabelEncoder() le = le.fit(dataDF[feature]) dataDF[feature] = le.transform(dataDF[feature]) return dataDF titanic_df = encode_features(titanic_df) titanic_df.head() Out[11]: P..

Data Science/Data Analysis

[kaggle] 타이타닉 생존률 예측하기 (1) - EDA

타이타닉 생존자 예측¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline titanic_df = pd.read_csv('./titanic_train.csv') titanic_df.head(3) Out[1]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Flore..

Python/Pandas

판다스 pandas (8) - unique(), nunique()

데이터 분석하다가 유일값 찾고 싶을 때 예제데이터는 데이콘 대회 중 이미 끝난 '제주도 도로 교통량 예측 AI 경진대회'에서 가져왔다. https://dacon.io/competitions/official/235985/data 제주도 도로 교통량 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io train = pd.read_csv('./jeju_traffic/train.csv') test = pd.read_csv('./jeju_traffic/test.csv') train 1. unique( ) - 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수 도로의 차량 평균 속도와 상관있을 것 같은 피처들 살펴보기 pr..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (8) - 데이터 전처리(LabelEncoder, OneHotEncoder, get_dummies, StandardScaler, MinMaxScaler)

데이터 전처리 Data Preprocessing 문자열 값을 입력값으로 허용하지 않음, 모든 문자열 값은 인코딩돼서 숫자형으로 변환해야 함 데이터 인코딩 레이블 인코딩 Label Encoding 카테고리 feature를 코드형 숫자값으로 변환하는 것 LabelEncoder 클래스로 구현 In [2]: from sklearn.preprocessing import LabelEncoder items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'] #LabelEncoder를 객체로 생성 후 fit과 transform으로 레이블 인코딩 수행 encoder = LabelEncoder() encoder.fit(items) labels = encoder.trans..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (7) - GridSearchCV

GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 ¶ 하이퍼 파라미터 값을 조정하여 알고리즘의 예측 성능을 개선할 수 있음 In [1]: grid_parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3] } GridSearchCV 클래스의 input인자¶ estimator: classifier, regressor, pipeline 등 param_grid: key + 리스트값을 가지는 딕셔너리가 주어짐. estimator 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정 scoring: 예측 성능을 측정할 평가 방법을 지정. 보통은 accuracy로 지정함 cv: 교차 검증을 위해 분할되는 학습/테스트 세트의 개..

얆생
'분류 전체보기' 카테고리의 글 목록 (15 Page)