Data Science

Data Science/Data Analysis

데이터셋 결측치 대체하기(선형보간법, 평균대치법, fillna()..)

In [ ]: !pip install fancyimpute Collecting fancyimpute Downloading fancyimpute-0.7.0.tar.gz (25 kB) Preparing metadata (setup.py) ... done Collecting knnimpute>=0.1.0 (from fancyimpute) Downloading knnimpute-0.1.0.tar.gz (8.3 kB) Preparing metadata (setup.py) ... done Requirement already satisfied: scikit-learn>=0.24.2 in /usr/local/lib/python3.10/dist-packages (from fancyimpute) (1.2.2) Requir..

Data Science/Crawling

전국 할리스 매장 데이터 가져오기(정적페이지 크롤링)

할리스 전국 매장의 지역 이름, 매장명, 전화번호 데이터 가져오기기 In [36]: page_no = 1 hollys_url = f"https://www.hollys.co.kr/store/korea/korStore2.do?pageNo={page_no}&sido=&gugun=&store=" hollys_url Out[36]: 'https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=1&sido=&gugun=&store=' In [37]: import requests source = requests.get(hollys_url).text source Out[37]: '\r\n\r\n\r\n\r\n\t\r\n\r\n\t\r\n\t\t본문 바로가기\r\n\t\r\n\..

Data Science/Dacon

[회귀] 데이콘 Basic 풍속 예측 AI 경진대회 (2) - 모델링 1~4(회귀 트리, 선형 회귀, AutoGluon)

모델링 1 회귀 트리, XGBRegressor와 LGBMRegressor를 혼합한 모델 두 트리의 최적 하이퍼 파라미터 튜닝 In [ ]: X_train_1 = X_train.copy() y_train_1 = y_train.copy() In [ ]: xgb_reg = XGBRegressor(n_estimators=1000, learning_rate=0.05, colsample_bytree=0.5, subsample=0.8) lgbm_reg = LGBMRegressor(n_estimators=1000, learning_rate=0.05, num_leaves=4, subsample=0.6, colsample_bytree=0.4, reg_lambda=10, n_jobs=-1) xgb_reg.fit(X_trai..

Data Science/Dacon

[회귀] 데이콘 Basic 풍속 예측 AI 경진대회 (1) 데이터 로딩/탐색적 데이터분석/전처리(Data Loading/EDA/Preprocessing)

데이콘 Basic 풍속 예측 AI 경진대회 https://dacon.io/competitions/official/236126/data 57920개의 데이터 ID : 샘플 별 고유 id 월: 데이터가 기록된 달을 나타냅니다. 일: 데이터가 기록된 날짜를 나타냅니다. 측정 시간대: 데이터가 측정된 시간대를 나타냅니다. 오전, 오후, 저녁, 새벽으로 구분되어 있습니다. 섭씨 온도 (° ⁣C) 절대 온도 (K) 이슬점 온도 (° ⁣C) 상대 습도 (%) 대기압 (mbar) 포화 증기압 (mbar) 실제 증기압 (mbar) 증기압 부족량 (mbar) 수증기 함량 (g/kg): 공기 1 kg당 수증기의 질량을 그램(g) 단위로 나타냅니다. 공기 밀도 (g/m**3): 1 m³의 부피에 들어있는 공기의 질량을 그램(..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (51) - 텍스트 분류 실습 - 20 뉴스그룹 분류

텍스트 분류 실습 - 20 뉴스그룹 분류 사이킷런이 내부에 갖고 있는 예제 데이터인 20 뉴스그룹 데이터셋을 이용해 텍스트 분류를 적용해보자 → fetch_20newsgroups() 텍스트를 피처 벡터화로 변환하면 희소 행렬 형태가 된다. 이런 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이다. 텍스트 정규화 In [1]: from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset='all', random_state=156) In [2]: print(news_data.keys()) dict_keys(['data', 'filenames', ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (50) Bag of Words - BOW

Bag of Words - BOW Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델이다. 다음과 같은 2개의 문장이 있다고 가정하고 이 문장을 BOW의 단어 수 기반으로 피처를 추출해보자 문장 1: 'My wife likes to watch baseball games and my daughter likes to watch baseball games too' 문장 2: 'My wife likes to play baseball' 문장 1과 문장 2에 있는 모든 단어에서 중복을 제거하고, 각 단어를 칼럼 형태로 나열한다. 그리고 각 단어에 고유의 인덱스를 다음과 같이 부여한다. 'and':0, 'baseball':1..

얆생
'Data Science' 카테고리의 글 목록