scikit-learn 특징 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리 scikit-learn 주요 모듈 sklearn.datasets 내장된 예제 데이터 세트 sklearn.preprocessing 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등) sklearn.feature_selection 특징(feature)를 선택할 수 있는 기능 제공 sklearn.feature_extraction 특징(feature) 추출에 사용 sklearn.d..
와인 품질 EDA¶ https://github.com/cbrownley/foundations-for-analytics-with-python 와인의 품질에는 어떤 요소가 영향을 많이 줄지, 그 영향이 통계적으로 유의한지 알아보자 In [108]: #라이브러리 정의 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import statsmodels.api as sm import statsmodels.formula.api as smf In [23]: #데이터 읽어오기, 테이블 살짝 조정해주기 wine = pd.read_csv('./winequality-both.csv', sep=',', header=0) wine.columns ..
일반적인 데이터 특징 1. 존재론적 특징 - 정성적 데이터 : 데이터 자체가 하나의 텍스트를 이루고 있기 때문에 데이터 하나 하나가 함축된 정보를 가짐 ex) 환율이 내리고 있어 올해 목표한 수출 목표의 조기 달성이 가능해 보인다. - 정량적 데이터 : 여러 속성(성별, 이름, 나이, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속성 하나 혹은 여러 개의 속성이 결합해 측정이나 설명이 가능 구분 정성적 데이터 정량적 데이터 형태 비정형 데이터 정형, 반정형 데이터 특징 객체 하나에 함의된 정보를 가짐 속성이 모여 객체를 이룸 구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐 저장 형태 파일, 웹 데이터베이스, 스프레드시트 소스 위치 외부 시스템(주로 소셜 데이터) 내부 시스템..
머신러닝 (Machine Learning) * 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야 * 머신러닝은 데이터를 통해 다양한 패턴을 감지하고, 스스로 학습할 수 있는 모델 개발에 초점 머신러닝 분류 1. 지도 학습(Supervised Learning) * 지도 학습은 주어진 입력으로 부터 출력 값을 예측하고자 할 때 사용 * 입력과 정답 데이터를 사용해 모델을 학습 시킨 후 새로운 입력 데이터에 대해 정확한 출력을 예측하도록 하는 것이 목표 * 지도 학습 알고리즘의 학습 데이터를 만드는 것은 많은 사람들의 노력과 자원이 필요하지만 높은 성능을 기대할 수 있음 - 분류와 회귀 * 지도 학습 알고리즘은 크게 **분류(classification)**와 **회귀(regression..
https://www.youtube.com/watch?v=0eCbAYX-_UQ&list=PL7ZVZgsnLwEEZcVusN-fV_sJhQHq833OS&index=1 EDA(Exploratory Data Analysis) 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정 2) 필요성 데이터가 표현하는 현상을 더 잘 이해하고, 잠재적인 문제 발견 데이터 다시 수집하거나 추가로 수집하는 등의 결정 내릴 수 있음 다양한 각도에서 살펴보면서 다양한 패턴 발견, 기존의 가설 수정하거나 새로운 가설 세울 수 있음 이후 통계적 추론 시도 가능, 예측 모델 만들 때 유용 3) 분석 과정 1. 문제 정의 ..