Data Science/Crawling

데이터 수집 개요/Overview of Data Collection

얆생 2023. 3. 31. 16:45

일반적인 데이터 특징

 

1. 존재론적 특징

 

 

- 정성적 데이터

 : 데이터 자체가 하나의 텍스트를 이루고 있기 때문에 데이터 하나 하나가 함축된 정보를 가짐

 ex) 환율이 내리고 있어 올해 목표한 수출 목표의 조기 달성이 가능해 보인다.

 

 

- 정량적 데이터

: 여러 속성(성별, 이름, 나이, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속성 하나 혹은 여러 개의 속성이 결합해 측정이나 설명이 가능

 

구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형, 반정형 데이터
특징 객체 하나에 함의된 정보를 가짐 속성이 모여 객체를 이룸
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스 위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBSM)

 

2. 목적론적 특징

 

 

- '데이터'라고 인식하게 되는 객체기 갖고 있는 존재 목적

 

- 하나의 서비스 혹은 활용(데이터 분석)을 위해 데이터가 존재하고 있다는 목적 인식

 

- 데이터에서 목적에 맞는 특징을 찾아내는 것

 

- 데이터는 관점에 따라 여러 종류의 데이터로 인식 가능

 

- 원본 데이터의 속성 분리, 다른 데이터와의 병합이 발생해 새로운 데이터 객체 생성

 

 

 

수집 데이터의 특징

 

- 수집에서 일어나는 모든 과정은 데이터 활용을 위한 재생산 과정

 

- 재생산은 원천 데이터를 탐색, 수집, 정제, 저장하는 과정을 거쳐 새로운 데이터를 생산함을 의미

 

- 수집된 데이터는 원본과 재생산 데이터의 관계를 고려할 팔요가 있음

 

 

1. 가역적 데이터

 

- 생산된 데이터의 원본으로 일정 수준 환원이 가능

 

- 데이터 원본의 내용이 변경됐을 경우, 변경 이력에 대한 추적 가능

 

- 원본 데이터의 흔적이 재생산 데이터에도 남아 있음

 

 

2. 불가역적 데이터

 

- 생산된 데이터의 원본으로 환원 불가능

 

- 원본 데이터와는 전혀 다른 형태로 재생산되므로 변경 이력 추적 불가능

 

- 원본 데이터의 내용이 변경돼도 재생산 데이터에는 영향 X

 

구분 가역적 데이터 불가역적 데이터
환원 가능성 가능 불가능
의존성 원본에 의존 독립적
원본 데이터와의 관계 1:1 1:N or N:1
처리 과정 탐색 병합
활용 분야 데이터 웨어하우징, 로그 수집 소셜 분석, 텍스트 마이닝

 

+) 데이터 웨어하우스(DW) : 사용자의 의사 결정에 도움 주기 위해 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스, 각각의 데이터베이스 관리 시스템들을 효율적으로 통합하여 조정/관리함

      +) 데이터 웨어하우징: 데이터베이스의 원본 데이터가 업데이트되면 추적이 가능

 

+) 소셜 분석, 포스팅한 글 자체가 변경이 됐다 하더라도 다시 수집하지 않는 이상 추적, 반영 불가

 

 

 

데이터 수집 정의

- 서비스 활용에 필요한 데이터를 시스템의 내부 혹은 외부에서 주기성을 갖고 필요한 형태로 수집하는 활동

- 데이터 수집 요소: 서비스 활용 / 데이터 위치 / 주기성 / 수집 데이터의 저장 형태

 

 

 1. 서비스 활용

 

- 서비스 활용에서 데이터 수집의 역할은 서비스의 품질을 결정할 뿐만 아니라 서비스 생명주기에도 영향 미침

 

- 어떤 서비스 할 것인지 결정했으면 먼저 수집할 원천 데이터 탐색 필요

 

- 데이터 탐색 과정에서 고려해야 할 사항: 수집의 난이도적, 비용적 측면 / 데이터 수집의 안정성

 

 

2. 데이터 위치

 

 

- 내부 데이터

 

   -- 내부 시스템에서 데이터 가져오는 경우

 

   -- 정형 데이터

 

   -- 외부 데이터 수집과 비교하면 비용, 난이도 측면에서 유리

 

   -- 서비스 생명주기 관리에 용이

 

 

- 외부 데이터

 

   -- 협약된 곳에서 수집하는 데이터 제외하곤 대부분 비정형 데이터

 

   -- 비용, 난이도가 상대적으로 어려움

 

   -- 외부 환경은 통제가 불가능하므로 서비스의 수명주기 관리가 원천 데이터에 의존할 경우, 수집 불가

      (외부 데이터에서 더 이상 서비스를 하지 않거나, 외부 시스템이 멈추면 서비스 자체도 멈추게 됌)

 

   -- 원천 데이터를 수집할 수 없을 경우에 대비한 서비스 관리 정책이 별도로 필요

    

 

3. 주기성

 

- 일반적으로 배치(일괄) 혹은 실시간이냐에 따라 주기를 결정(서비스의 활용적 측면이지, 원본 데이터의 생명주기에 관한게 아님)

 

- 데이터 수집은 다른 곳에서 생성한 데이터를 복제하는 행위

 

- 주기를 갖고 계속 수집하는 행위인지, 한 번의 수집으로 끝나는 과정인지 먼저 고려해야 함

 

- 일회성 수집이 아니고 주기를 기준으로 수집이 진행돼야 한다면, 서비스의 종류 및 환경에 따라 실시간으로 할지 배치 작업으로 할지 결정해야 함

 

 

4. 수집 데이터의 저장 형태

 

- 수집 대상 데이터의 위치, 주기, 수집 방법이 결정됐으면, 수집한 데이터를 어떤 형태로 저장할건지 고려

 

- 빅데이터 처리에서 일반적으로 사용되는 저장소는 분산 파일 시스템이지만, 수집한 데이터를 가공, 처리하기 위해선 DBMS가 사용될 수도 있고, 서비스를  DBMS를 통해 제공할 수도 있으므로 서비스 환경에 맞는 아키텍쳐 설계

 

- 원본 데이터 형태에 따라 사용되는 수집 기술이 다르고, 수집되는 형태도 다르기 때문에 데이터 저장소의 아키텍쳐 설계 시 파일 시스템, 관계형 데이터베이스, 분산 처리 DBMS 등을 고려해야 함

 

 

 

 

출처: www.suanlab.com  

 

Home | SuanLab

한국과 일본의 데이터베이스 연구자 분들이 정례적으로 진행하는 Korea-Japan Database (KJDB) 워크숍이 12월 2일(금)~3일(토)에 개최됩니다. 코로나-19로 인하여 작년과 마찬가지로 온라인으로 진행됩니

suanlab.com