피처벡터화

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (50) Bag of Words - BOW

Bag of Words - BOW Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델이다. 다음과 같은 2개의 문장이 있다고 가정하고 이 문장을 BOW의 단어 수 기반으로 피처를 추출해보자 문장 1: 'My wife likes to watch baseball games and my daughter likes to watch baseball games too' 문장 2: 'My wife likes to play baseball' 문장 1과 문장 2에 있는 모든 단어에서 중복을 제거하고, 각 단어를 칼럼 형태로 나열한다. 그리고 각 단어에 고유의 인덱스를 다음과 같이 부여한다. 'and':0, 'baseball':1..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (48) 자연어처리(NLP, Natural Language Processing)와 텍스트 분석(Text Analytics)

자연어처리(NLP, Natural Language Processing)와 텍스트 분석(Text Analytics) NLP는 기계가 인간의 언어를 이해하고 해석하는데 더 중점을 두고 기술이 발전해왔다. 언어를 해석하기 위한 기계 번역 자동으로 질문을 해석하고 답해주는 질의응답 시스템 텍스트 분석을 향상하게 하는 기반 기술이라도고 볼 수 있다. 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추충하는 것에 좀 더 중점을 두고 발전해왔다. 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(BI)나 예측 분석 등의 분석 작업을 주로 수행한다. 텍스트 분류(Text Classification): 예를 들어, 특정 신문 ..

얆생
'피처벡터화' 태그의 글 목록