Data Science

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (39) 차원 축소, LDA(Linear Discriminant Analysis)

LDA(Linear Discriminant Analysis) LDA 개요 LDA는 선형 판별 분석법으로 불리며 PCA와 매우 유사하다 PCA와 유사하게 입력 데이터셋을 저차원 공간에 투영해 차원을 축소하는 기법이지만, LDA는 '지도학습의 분류'에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다 LDA는 입력 데이터의 타겟값 클래스를 최대한으로 분리할 수 있는 축을 찾는다 특정 공간상에서 클래스 분리를 최대화하는 축을 찾기 위해, 클래스 간 분산(between-class scatter)과 클래스 내부 분산(within-class scatter)의 비율을 최대화하는 방식 즉, 클래스 간 분산은 최대한 크게, 클래스 내부 분산은 최대한 작게 가져가는 방식 LDA는 클..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (38) 차원 축소, PCA(Principal Component Analysis)

차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터셋의 차원을 축소해 새로운 차원의 데이터셋을 생성하는 것 피처가 수백 개 이상이면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다 또, 피처가 많으면 피처들끼리 상관관계가 높을 수도 있다 → 다중공선성 문제 차원을 축소하여 피처 개수를 줄이면 직관적으로 데이터를 해석할 수 있다 피처 선택: 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것 새롭게 추출된 피처는 기존 피처와는 완전히 다른 값이 된다 피처를 함축적으로 잘 설명할 수 있는 또 다른 공간으로 매핑하여 추출함 기존 피처가 전혀 인지하기 어..

SQL

Aggregate Function 집계 함수 - COUNT/SUM/AVG/MIN/MAX

COUNT 개수를 세어줌 SELECT COUNT(* 또는 칼럼명) FROM 테이블명 Products ProductID ProductName SupplierID Price 1 A 1 18 2 A 2 19 3 B 3 Null 4 C 5 22 5 Null Null 5 - 전체 개수 세기 SELECT COUNT (*) FROM products >> 5 - ProductName 개수 세기, 유일값만 세기 SELECT COUNT(productname) FROM products >> 4 -- Null 값은 빼고 세줌 SELECT COUNT(DISTINCT productname) FROM products >> 3 -- Null값 빼고 중복 안되게 SUM 숫자 데이터를 가진 칼럼의 합을 계산해줌 SELECT SUM(칼럼..

Tableau

바 차트, 라인 차트, 영역 차트 그리기 - Bar chart/Line chart/Area chart

눈에 잘 보이는 바 차트 만들기 - 지역에 따른 sales 살피기 - 샘플 데이터 Sample - Superstore 이용 1. 불필요한 필드 레이블 숨기기 2. 축 머리글 표시 해제 후 레이블 직접 붙이기 → 다시 표시하고 싶으면 필드에 대고 마우스 오른쪽 > '머리글 표시' 선택 → 축에 대고 마우스 오른쪽 버튼 > '머리글 표시' 해제 3. 불필요한 참조선 없애기 → 그래프 배경에 대고 마우스 오른쪽 > 서식 > 라인 서식 > 각 시트, 행, 열마다 격자선과 축 눈금자, 축 눈금선 조절 4. 0이 되는 기준선 표시하기 → 0 기준선이 없으면 막대 그래프가 공중에 떠있는 것처럼 보임 5. 불투명도 조절을 통해 색상 톤 다운(보는 사람으로 하여금 눈의 피로도 ↓) → 마크 > '색상'에서 색상 및 불투..

Tableau

태블로 시작하기 - 데이터 준비, 연결, 작업하기

데이터 가져오기 파일에 연결 엑셀 파일(xlsx), 텍스트 파일(txt, csv), JSON 파일, pdf 파일, 공간 파일(shape), 통계 파일(R, SPSS, SAS) 서버에 연결 Dropbox, Google Analytics, Google Drive, MariaDB, MySQL, Salesforce, Spark SQL 등 굉장히 많은 서버와 연결하여 사용 가능 데이터 준비하기 라이브, 추출은 데스크탑 버전에서만 지원 데이터 원본 필터: 예를 들어, 가장 최신의 값만 쓰고 싶을 때 굳이 과거 데이터를 가져와 과부하를 만들 필요가 없는 상황에서 필터를 쓴다. → 범위, 최소, 최대 지정 가능 → 특수에서는 null값, null값이 아닌 값, 모든 값 지정 가능 → 화면의 퍼포먼스를 컨트롤할 때 좋은..

Tableau

태블로 소개, 태블로 퍼블릭, 학생용 태블로 설치 방법

Tableau 태블로란? https://www.tableau.com/ko-kr/why-tableau/what-is-tableau Tableau란? Tableau란? Tableau는 데이터를 사용해 문제를 해결하는 방식에 혁신을 가져온 시각적 분석 플랫폼으로, 사람과 조직이 데이터를 최대한 활용하도록 지원합니다. www.tableau.com Tableau는 데이터를 사용해 데이터 분석 및 시각화를 하는 BI(Business Intelligence) 솔루션이다. 데이터를 활용해 의사결정을 내린 후 결과적으로 비지니스 목표를 달성하게 하는 과정과 방법이다. 태블로 퍼블릭 버전 설치 방법 다운로드 링크: https://www.tableau.com/products/public/download 설치 가이드: htt..

얆생
'분류 전체보기' 카테고리의 글 목록 (6 Page)