Data Science/Data Analysis

[EDA] 탐색적 데이터 분석 개념

얆생 2023. 3. 29. 23:18

https://www.youtube.com/watch?v=0eCbAYX-_UQ&list=PL7ZVZgsnLwEEZcVusN-fV_sJhQHq833OS&index=1

EDA(Exploratory Data Analysis)

1) 정의

 

수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정

데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정

 

2) 필요성

 

데이터가 표현하는 현상을 더 잘 이해하고, 잠재적인 문제 발견

데이터 다시 수집하거나 추가로 수집하는 등의 결정 내릴 수 있음

다양한 각도에서 살펴보면서 다양한 패턴 발견, 기존의 가설 수정하거나 새로운 가설 세울 수 있음

이후 통계적 추론 시도 가능, 예측 모델 만들 때 유용

 

3) 분석 과정

 

1. 문제 정의 단계에서 세운 연구 질문, 가설을 바탕으로 분석 계획 세우기(계획에는 어떤 속성 및 속성 간의 관계를 집중 관찰할지, 최적의 방법은 무엇일지 포함시켜야 함)

2. 분석의 목적과 변수가 무엇이 있는지 확인, 개별 변수의 이름이나 설명을 가지는지 확인

3. 데이터 전체적으로 살펴보기(문제 없는지, head/tail 확인, 이상치/결측치 확인 등)

4. 데이터의 개별 속성값 관찰(각 속성값이 예측한 범위, 분포를 갖는지 확인/아니라면 이유 확인)

5. 개별 속성 관찰에서 찾아내지 못한 패턴 발견(상관관계, 시각화 등)

 

문제 정의(질문, 가설) > 분석 계획 > 데이터 관찰 > 재현 > 요인 추가/가설 변경 > 실험

 

연구 질문 : 목적이 본질적으로 질적인지 양적인지에 따라 어떤 유형의 연구 문제를 활용해야 하는지

정량적 질문 유형(Quantitative Question Types): 직관적, 구체적, 서술형 질문/비교 질문/관계 기반 질문

질적 질문 유형(Qualitative Question Types): 직접적이지 않고 더 모호함, 탐색적 질문/예측 질문/해석적 질문

 

4) 이상값 발견 기법

 

- 개별 데이터 관찰: 눈으로 보며 전체적 추세와 특이사항 관찰

- 통계값 활용: 요약 통계 지표

- 시각화 활용

- 머신러닝 기법 활용: 클러스터링(clustering) 등을 통해

- 통계 기반 탐지

- 편차 기반 탐지

- 거리 기반 탐지

 

5가지 숫자 요약(Five-number summary): 데이터 집합에 대한 정보를 제공하는 통계량(max,Q3,median,Q1,min)

Descriptive Statistics

 

5) 속성 간의 관계 분석