[EDA] 탐색적 데이터 분석 개념
https://www.youtube.com/watch?v=0eCbAYX-_UQ&list=PL7ZVZgsnLwEEZcVusN-fV_sJhQHq833OS&index=1
EDA(Exploratory Data Analysis)
1) 정의
수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정
데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
2) 필요성
데이터가 표현하는 현상을 더 잘 이해하고, 잠재적인 문제 발견
데이터 다시 수집하거나 추가로 수집하는 등의 결정 내릴 수 있음
다양한 각도에서 살펴보면서 다양한 패턴 발견, 기존의 가설 수정하거나 새로운 가설 세울 수 있음
이후 통계적 추론 시도 가능, 예측 모델 만들 때 유용
3) 분석 과정
1. 문제 정의 단계에서 세운 연구 질문, 가설을 바탕으로 분석 계획 세우기(계획에는 어떤 속성 및 속성 간의 관계를 집중 관찰할지, 최적의 방법은 무엇일지 포함시켜야 함)
2. 분석의 목적과 변수가 무엇이 있는지 확인, 개별 변수의 이름이나 설명을 가지는지 확인
3. 데이터 전체적으로 살펴보기(문제 없는지, head/tail 확인, 이상치/결측치 확인 등)
4. 데이터의 개별 속성값 관찰(각 속성값이 예측한 범위, 분포를 갖는지 확인/아니라면 이유 확인)
5. 개별 속성 관찰에서 찾아내지 못한 패턴 발견(상관관계, 시각화 등)
문제 정의(질문, 가설) > 분석 계획 > 데이터 관찰 > 재현 > 요인 추가/가설 변경 > 실험
연구 질문 : 목적이 본질적으로 질적인지 양적인지에 따라 어떤 유형의 연구 문제를 활용해야 하는지
정량적 질문 유형(Quantitative Question Types): 직관적, 구체적, 서술형 질문/비교 질문/관계 기반 질문
질적 질문 유형(Qualitative Question Types): 직접적이지 않고 더 모호함, 탐색적 질문/예측 질문/해석적 질문
4) 이상값 발견 기법
- 개별 데이터 관찰: 눈으로 보며 전체적 추세와 특이사항 관찰
- 통계값 활용: 요약 통계 지표
- 시각화 활용
- 머신러닝 기법 활용: 클러스터링(clustering) 등을 통해
- 통계 기반 탐지
- 편차 기반 탐지
- 거리 기반 탐지
5가지 숫자 요약(Five-number summary): 데이터 집합에 대한 정보를 제공하는 통계량(max,Q3,median,Q1,min)
Descriptive Statistics
5) 속성 간의 관계 분석