Text Preprocessing
- Sentence: 문서 바로 아래 단위. Sentence를 올바르게 구분하는 것은 매우 중요하다(Setnence Splitting)
- Token: 가장 적은 양의 의미가 주어져 있는 단위. Ex)단어/숫자/space
- Stop-words: Words that do not carry any information. ex)~습니다/~를/a/and/the
- Stemming: 차원을 줄이는 것이 중요하다. 같은 의미여도 품사가 다른 것을 하나의 stem(normalized form)으로 변환
- ex) Love,Loves,Loved,Loving >> Lov by Stemming
- Lemmatization: 품사를 보존하며 단어의 원형을 찾기
- ex) Love,Loves,Loved,Loving >> Love by Lemmatization
Text Transformation
: 문서를 어떻게 하면 연속형의 숫자(벡터)로 변환 할 것인지
- Bag of words: simplifying representation method for documents where a text is represented in a vector of an unorder collection of words. 등장 빈도와 같은것을 바탕으로 한 단어의 모음
- TF-IDF: 가중치 부여한다.
- One-hot-vector-representation: 두 단어 사이의 유사성 보여줄 수 없는 단점이 있다.
- Word vectors: distributed representation >> 단어를 N차원의 실수 공간에 매핑해보자.
Pre-trained Word Model: Word2vec, GloVe, fastText
Pre-trained Language Models: ELMO,BERT,GPT
Dimensionality Reduction(차원 축소)
Feature subset Selection :Select only the best feacutres for further analysis(가장 중요한 feature 추출)
Feature subset Extraction: 주어진 데이터로부터 새로운 변수를 추출(원 차원보다 새로운 변수의 차원이 작아야 한다)
- Latent Semantic Analysis(LSA): 특이값 분해로 진행
- Latent Dirichlet Allocation(LDA)
- Doc2Vec
Learning & Evaluation for Downstream task
- Document Similarity: Cosine Similarity
- Document categorization(Classification)
- Spam Filtering
- Sentiment Analysis
- Clustering
- Information Extraction/Retrieval
해당 게시글은 유튜브 고려대학교 산업경영학부 강필성 교수님의 DSBA 연구실 유튜브 영상을 바탕으로 작성된 글입니다.
https://www.youtube.com/watch?v=Y0zrFVZqnl4&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=2
https://www.youtube.com/watch?v=UInnl60pzkA&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=1