일반적인 데이터 특징
1. 존재론적 특징
- 정성적 데이터
: 데이터 자체가 하나의 텍스트를 이루고 있기 때문에 데이터 하나 하나가 함축된 정보를 가짐
ex) 환율이 내리고 있어 올해 목표한 수출 목표의 조기 달성이 가능해 보인다.
- 정량적 데이터
: 여러 속성(성별, 이름, 나이, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속성 하나 혹은 여러 개의 속성이 결합해 측정이나 설명이 가능
구분 | 정성적 데이터 | 정량적 데이터 |
형태 | 비정형 데이터 | 정형, 반정형 데이터 |
특징 | 객체 하나에 함의된 정보를 가짐 | 속성이 모여 객체를 이룸 |
구성 | 언어, 문자 등으로 이루어짐 | 수치, 도형, 기호 등으로 이루어짐 |
저장 형태 | 파일, 웹 | 데이터베이스, 스프레드시트 |
소스 위치 | 외부 시스템(주로 소셜 데이터) | 내부 시스템(주로 DBSM) |
2. 목적론적 특징
- '데이터'라고 인식하게 되는 객체기 갖고 있는 존재 목적
- 하나의 서비스 혹은 활용(데이터 분석)을 위해 데이터가 존재하고 있다는 목적 인식
- 데이터에서 목적에 맞는 특징을 찾아내는 것
- 데이터는 관점에 따라 여러 종류의 데이터로 인식 가능
- 원본 데이터의 속성 분리, 다른 데이터와의 병합이 발생해 새로운 데이터 객체 생성
수집 데이터의 특징
- 수집에서 일어나는 모든 과정은 데이터 활용을 위한 재생산 과정
- 재생산은 원천 데이터를 탐색, 수집, 정제, 저장하는 과정을 거쳐 새로운 데이터를 생산함을 의미
- 수집된 데이터는 원본과 재생산 데이터의 관계를 고려할 팔요가 있음
1. 가역적 데이터
- 생산된 데이터의 원본으로 일정 수준 환원이 가능
- 데이터 원본의 내용이 변경됐을 경우, 변경 이력에 대한 추적 가능
- 원본 데이터의 흔적이 재생산 데이터에도 남아 있음
2. 불가역적 데이터
- 생산된 데이터의 원본으로 환원 불가능
- 원본 데이터와는 전혀 다른 형태로 재생산되므로 변경 이력 추적 불가능
- 원본 데이터의 내용이 변경돼도 재생산 데이터에는 영향 X
구분 | 가역적 데이터 | 불가역적 데이터 |
환원 가능성 | 가능 | 불가능 |
의존성 | 원본에 의존 | 독립적 |
원본 데이터와의 관계 | 1:1 | 1:N or N:1 |
처리 과정 | 탐색 | 병합 |
활용 분야 | 데이터 웨어하우징, 로그 수집 | 소셜 분석, 텍스트 마이닝 |
+) 데이터 웨어하우스(DW) : 사용자의 의사 결정에 도움 주기 위해 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스, 각각의 데이터베이스 관리 시스템들을 효율적으로 통합하여 조정/관리함
+) 데이터 웨어하우징: 데이터베이스의 원본 데이터가 업데이트되면 추적이 가능
+) 소셜 분석, 포스팅한 글 자체가 변경이 됐다 하더라도 다시 수집하지 않는 이상 추적, 반영 불가
데이터 수집 정의
- 서비스 활용에 필요한 데이터를 시스템의 내부 혹은 외부에서 주기성을 갖고 필요한 형태로 수집하는 활동
- 데이터 수집 요소: 서비스 활용 / 데이터 위치 / 주기성 / 수집 데이터의 저장 형태
1. 서비스 활용
- 서비스 활용에서 데이터 수집의 역할은 서비스의 품질을 결정할 뿐만 아니라 서비스 생명주기에도 영향 미침
- 어떤 서비스 할 것인지 결정했으면 먼저 수집할 원천 데이터 탐색 필요
- 데이터 탐색 과정에서 고려해야 할 사항: 수집의 난이도적, 비용적 측면 / 데이터 수집의 안정성
2. 데이터 위치
- 내부 데이터
-- 내부 시스템에서 데이터 가져오는 경우
-- 정형 데이터
-- 외부 데이터 수집과 비교하면 비용, 난이도 측면에서 유리
-- 서비스 생명주기 관리에 용이
- 외부 데이터
-- 협약된 곳에서 수집하는 데이터 제외하곤 대부분 비정형 데이터
-- 비용, 난이도가 상대적으로 어려움
-- 외부 환경은 통제가 불가능하므로 서비스의 수명주기 관리가 원천 데이터에 의존할 경우, 수집 불가
(외부 데이터에서 더 이상 서비스를 하지 않거나, 외부 시스템이 멈추면 서비스 자체도 멈추게 됌)
-- 원천 데이터를 수집할 수 없을 경우에 대비한 서비스 관리 정책이 별도로 필요
3. 주기성
- 일반적으로 배치(일괄) 혹은 실시간이냐에 따라 주기를 결정(서비스의 활용적 측면이지, 원본 데이터의 생명주기에 관한게 아님)
- 데이터 수집은 다른 곳에서 생성한 데이터를 복제하는 행위
- 주기를 갖고 계속 수집하는 행위인지, 한 번의 수집으로 끝나는 과정인지 먼저 고려해야 함
- 일회성 수집이 아니고 주기를 기준으로 수집이 진행돼야 한다면, 서비스의 종류 및 환경에 따라 실시간으로 할지 배치 작업으로 할지 결정해야 함
4. 수집 데이터의 저장 형태
- 수집 대상 데이터의 위치, 주기, 수집 방법이 결정됐으면, 수집한 데이터를 어떤 형태로 저장할건지 고려
- 빅데이터 처리에서 일반적으로 사용되는 저장소는 분산 파일 시스템이지만, 수집한 데이터를 가공, 처리하기 위해선 DBMS가 사용될 수도 있고, 서비스를 DBMS를 통해 제공할 수도 있으므로 서비스 환경에 맞는 아키텍쳐 설계
- 원본 데이터 형태에 따라 사용되는 수집 기술이 다르고, 수집되는 형태도 다르기 때문에 데이터 저장소의 아키텍쳐 설계 시 파일 시스템, 관계형 데이터베이스, 분산 처리 DBMS 등을 고려해야 함
출처: www.suanlab.com
'Data Science > Crawling' 카테고리의 다른 글
전국 할리스 매장 데이터 가져오기(정적페이지 크롤링) (1) | 2024.04.01 |
---|