데이콘 Basic 풍속 예측 AI 경진대회 https://dacon.io/competitions/official/236126/data 57920개의 데이터 ID : 샘플 별 고유 id 월: 데이터가 기록된 달을 나타냅니다. 일: 데이터가 기록된 날짜를 나타냅니다. 측정 시간대: 데이터가 측정된 시간대를 나타냅니다. 오전, 오후, 저녁, 새벽으로 구분되어 있습니다. 섭씨 온도 (° C) 절대 온도 (K) 이슬점 온도 (° C) 상대 습도 (%) 대기압 (mbar) 포화 증기압 (mbar) 실제 증기압 (mbar) 증기압 부족량 (mbar) 수증기 함량 (g/kg): 공기 1 kg당 수증기의 질량을 그램(g) 단위로 나타냅니다. 공기 밀도 (g/m**3): 1 m³의 부피에 들어있는 공기의 질량을 그램(..
텍스트 분류 실습 - 20 뉴스그룹 분류 사이킷런이 내부에 갖고 있는 예제 데이터인 20 뉴스그룹 데이터셋을 이용해 텍스트 분류를 적용해보자 → fetch_20newsgroups() 텍스트를 피처 벡터화로 변환하면 희소 행렬 형태가 된다. 이런 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이다. 텍스트 정규화 In [1]: from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset='all', random_state=156) In [2]: print(news_data.keys()) dict_keys(['data', 'filenames', ..
Bag of Words - BOW Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델이다. 다음과 같은 2개의 문장이 있다고 가정하고 이 문장을 BOW의 단어 수 기반으로 피처를 추출해보자 문장 1: 'My wife likes to watch baseball games and my daughter likes to watch baseball games too' 문장 2: 'My wife likes to play baseball' 문장 1과 문장 2에 있는 모든 단어에서 중복을 제거하고, 각 단어를 칼럼 형태로 나열한다. 그리고 각 단어에 고유의 인덱스를 다음과 같이 부여한다. 'and':0, 'baseball':1..