전체 글

Count-based Representations : 가변적 길이의 문장을 고정된 길이의 숫자형 벡터로 변환하는 기법 모델에 Input으로 들어가는 X는 길이가 모두 같은 벡터여야 한다(Vector Space Model). 하지만 텍스트 분석에서 대부분의 문서의 길이 (len(X1), len(X2) ..etc)는 다르다. 해당 게시글에서는 단어의 빈도 기반으로 적용하는 법에 대해 서술한다. 즉, 목적은 Preprocessed 된 Text data, 즉 unstructured data를 structured data(vector/matrix 형태) 로 변환하는 것이다. Bag of Words 문서는 단어들의 집합체이며 해당 단어의 순서는 무시한다고 가정한다. 단어가 다르면 개별 단어를 atomic symbo..
Introducion to NLP: 자연어 처리 Syntax: 단어 사이의 구조적 관계 Semantics: 의미 분석 Pragmatics: 목표 달성을 위해 Language가 어떻게 쓰이는지 Lexical Analysis: 어휘 분석 Syntax Analysis: 구문 분석 End to End Multi-Task Learning: 종단학습, 즉 사람의 개입이 없이 학습한다. >>> 문서와 Output만 주어지면 사람의 개입 없이 처리하는 Model을 만들겠다. Lexical Analysis: 어휘 분석 : 일정 단어 또는 토큰 수준, 즉 의미를 보존할 수 있는 최소한의 수준에서 분석을 진행하는 것 목적: 일정한 순서가 있는 characters의 조합을 sequence of Token으로 변환하기. 형태소..
Text Preprocessing Sentence: 문서 바로 아래 단위. Sentence를 올바르게 구분하는 것은 매우 중요하다(Setnence Splitting) Token: 가장 적은 양의 의미가 주어져 있는 단위. Ex)단어/숫자/space Stop-words: Words that do not carry any information. ex)~습니다/~를/a/and/the Stemming: 차원을 줄이는 것이 중요하다. 같은 의미여도 품사가 다른 것을 하나의 stem(normalized form)으로 변환 ex) Love,Loves,Loved,Loving >> Lov by Stemming Lemmatization: 품사를 보존하며 단어의 원형을 찾기 ex) Love,Loves,Loved,Loving..
저자들의 주장 Pre-trained word representations: Down stream tasks에서 가장 Key point 복잡한 특성의 모델링 가능할 수 있어야 한다.(구문분석, 의미분석 모두) 다의어의 관점에서 하나의 언어가 상황에 따라 다르게 Embedding 된다. ELMo 각각의 Token은 전체 Input sentence에 의한 representation ELMo에서 사용하는 Embedding vector는 bidirectional LSTM에서 추출된다. 즉, ELMo는 전체의 입력 문장을 이용한 representation이고, 입력 문장은 bidirectional LSTM으로 Language model을 학습시켰다. **Language model(언어 모델): 문장의 확률을 나타내..
Transformers Library는 Pipline라는 모듈을 제공해 zero-shot 학습 추론 가능. 해당 Library는 많은 모델이 있다. Pipeline 감성분석: pipeline('sentiment-analysis') import transformers from transformers import pipeline #pipeline: 모듈, 이를 통해 zero-shot 학습 추론 가능 sentiment = pipeline('sentiment-analysis') print(sentiment(["I like Olympic games as it's very exciting."])) print(sentiment(["I'm against to hold Olympic games in Tokyo in te..
Abstract 현재 지배적인 Sequence 변환 모델은 Encoder와 Decoder를 포함한 복잡한 RNN or CNN 모델로 이루어져있다. 이 중 Best performace를 보이는 모델은 Encoder와 Decoder를 Attention Mechanism으로 연결 한 것이다. 본 논문에서는 새로운 Newtork: Transformer를 제안한다. Transformer을 두 가지 번역 과제를 대상으로 실험 한 결과, 품질 향상과 병렬 처리성으로 학습에 훨씬 적은 시간이 소요됐다. Transformer는 최고의 BLUE 를 달성했으며 크고 제한된 학습 데이터를 바탕으로 영어 뿐 아닌 다른 일반화된 작업에 역시 잘 적용할 수 있다. BLUE(Bilingual Evaluation Understandi..
Boosting의 아이디어 여러 개의 Learning 모델을 순차적으로 구축해 최종적으로 합침(앙상블)\ 여기서 사용하는 learning 모델은 매우 단순한(ex. 이진분류에서 0.5보다 정확도가 높은) 모델이다. 즉, 각 단계에서 새로운 base learner를 학습해 이전단계의 base learner 단점 보완 각 단계를 거치며 모델이 점차 강해진다 >> Boosting AdaBoost(Adaptive Boosting) 각 단계에서 새로운 base learner를 학습해 이전 단계의 base learner의 단점을 보완 Training error가 큰 관측치의 선택확률(가중치)를 높이고, training error가 작은 관측치의 선택 확률을 낮춤 오분류한 관측치에 집중한다: 정분류는 신경쓰지 않고 ..
Cross Entropy는 보편적으로 많이 쓰는 비용함수이다. 수치예측의 비용함수는 MSE(Mean Squared Error)를 다수 사용한다. 하지만 분류문제(Y가 범주형일 때)는 비용함수로 Cross Entropy를 다수 사용한다. Cross Entropy 해당 게시글은 고려대학교 산업경영공학부 김성범교수님의 핵심 머신러닝 유튜브를 바탕으로 작성된 글입니다.
HBijou
현빈