CSR형식

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (50) Bag of Words - BOW

Bag of Words - BOW Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델이다. 다음과 같은 2개의 문장이 있다고 가정하고 이 문장을 BOW의 단어 수 기반으로 피처를 추출해보자 문장 1: 'My wife likes to watch baseball games and my daughter likes to watch baseball games too' 문장 2: 'My wife likes to play baseball' 문장 1과 문장 2에 있는 모든 단어에서 중복을 제거하고, 각 단어를 칼럼 형태로 나열한다. 그리고 각 단어에 고유의 인덱스를 다음과 같이 부여한다. 'and':0, 'baseball':1..

얆생
'CSR형식' 태그의 글 목록