bow

Count-based Representations : 가변적 길이의 문장을 고정된 길이의 숫자형 벡터로 변환하는 기법 모델에 Input으로 들어가는 X는 길이가 모두 같은 벡터여야 한다(Vector Space Model). 하지만 텍스트 분석에서 대부분의 문서의 길이 (len(X1), len(X2) ..etc)는 다르다. 해당 게시글에서는 단어의 빈도 기반으로 적용하는 법에 대해 서술한다. 즉, 목적은 Preprocessed 된 Text data, 즉 unstructured data를 structured data(vector/matrix 형태) 로 변환하는 것이다. Bag of Words 문서는 단어들의 집합체이며 해당 단어의 순서는 무시한다고 가정한다. 단어가 다르면 개별 단어를 atomic symbo..
HBijou
'bow' 태그의 글 목록