Data Science/파이썬 머신러닝 완벽 가이드
[sklearn] (49) 텍스트 사전 분비 작업(텍스트 전처리) - 텍스트 정규화
텍스트 사전 분비 작업(텍스트 전처리) - 텍스트 정규화 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 사전 작업을 수행하는 것이다. 텍스트 정규화의 주요 작업을 NLTK 패키지를 이용해 실습해보자 클렌징 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업. 예를 들어, HTML, XML 태그나 특정 기호 등을 제거 텍스트 토큰화 문서에서 문장을 분리하는 문장 토큰화 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다. 또한, 정규 표현식에 따른 문장 토큰화도 가능하다. 문장 토큰화는 각 문장이 가지는 sementic적인 의미가..