preprocessing

Data Science/Dacon

[회귀] 데이콘 Basic 풍속 예측 AI 경진대회 (1) 데이터 로딩/탐색적 데이터분석/전처리(Data Loading/EDA/Preprocessing)

데이콘 Basic 풍속 예측 AI 경진대회 https://dacon.io/competitions/official/236126/data 57920개의 데이터 ID : 샘플 별 고유 id 월: 데이터가 기록된 달을 나타냅니다. 일: 데이터가 기록된 날짜를 나타냅니다. 측정 시간대: 데이터가 측정된 시간대를 나타냅니다. 오전, 오후, 저녁, 새벽으로 구분되어 있습니다. 섭씨 온도 (° ⁣C) 절대 온도 (K) 이슬점 온도 (° ⁣C) 상대 습도 (%) 대기압 (mbar) 포화 증기압 (mbar) 실제 증기압 (mbar) 증기압 부족량 (mbar) 수증기 함량 (g/kg): 공기 1 kg당 수증기의 질량을 그램(g) 단위로 나타냅니다. 공기 밀도 (g/m**3): 1 m³의 부피에 들어있는 공기의 질량을 그램(..

Data Science/Dacon

[회귀] 감귤 착과량 예측 AI 경진대회

감귤 착과량 예측 AI 경진대회 https://dacon.io/competitions/official/236038/overview/description ID : 과수나무 고유 ID 착과량(int) : 실제 감귤 착과량 (Target) 나무 생육 상태 Features (5개): 수고(m), 수관폭1(min), 수관폭2(max), 수관폭평균(수관폭1과 수관폭2의 평균) (데이터 기입은 cm 단위) 새순 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 새순 데이터 엽록소 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 엽록소 데이터 목적: 감귤나무의 나무 생육 상태, 엽록소 및 새순 정보로부터 감귤 착과량을 회귀 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (9) - 데이터 스케일링 Data Scaling

(데이콘 커뮤니티에서 참고함 https://dacon.io/codeshare/4526) sklearn으로 데이터 스케일링(Data Scaling)하는 5가지 방법🔥 dacon.io 데이터 스케일링 Data Scaling 피처들마다 데이터값 범위가 제각각이기 때문에 범위 차이가 클 경우, 모델링에 방해가 됨 스케일링을 통해 모든 피처들의 데이터 분포나 범위를 동일하게 조정해줄 수 있음 훈련용 데이터셋은 fit 메서드를 적용시킨 후 transform, 테스트용 데이터셋에는 transform만 적용 In [45]: #라이브러리 정의 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sk..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (8) - 데이터 전처리(LabelEncoder, OneHotEncoder, get_dummies, StandardScaler, MinMaxScaler)

데이터 전처리 Data Preprocessing 문자열 값을 입력값으로 허용하지 않음, 모든 문자열 값은 인코딩돼서 숫자형으로 변환해야 함 데이터 인코딩 레이블 인코딩 Label Encoding 카테고리 feature를 코드형 숫자값으로 변환하는 것 LabelEncoder 클래스로 구현 In [2]: from sklearn.preprocessing import LabelEncoder items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'] #LabelEncoder를 객체로 생성 후 fit과 transform으로 레이블 인코딩 수행 encoder = LabelEncoder() encoder.fit(items) labels = encoder.trans..

얆생
'preprocessing' 태그의 글 목록