Introducion to NLP: 자연어 처리 Syntax: 단어 사이의 구조적 관계 Semantics: 의미 분석 Pragmatics: 목표 달성을 위해 Language가 어떻게 쓰이는지 Lexical Analysis: 어휘 분석 Syntax Analysis: 구문 분석 End to End Multi-Task Learning: 종단학습, 즉 사람의 개입이 없이 학습한다. >>> 문서와 Output만 주어지면 사람의 개입 없이 처리하는 Model을 만들겠다. Lexical Analysis: 어휘 분석 : 일정 단어 또는 토큰 수준, 즉 의미를 보존할 수 있는 최소한의 수준에서 분석을 진행하는 것 목적: 일정한 순서가 있는 characters의 조합을 sequence of Token으로 변환하기. 형태소..
Text Preprocessing Sentence: 문서 바로 아래 단위. Sentence를 올바르게 구분하는 것은 매우 중요하다(Setnence Splitting) Token: 가장 적은 양의 의미가 주어져 있는 단위. Ex)단어/숫자/space Stop-words: Words that do not carry any information. ex)~습니다/~를/a/and/the Stemming: 차원을 줄이는 것이 중요하다. 같은 의미여도 품사가 다른 것을 하나의 stem(normalized form)으로 변환 ex) Love,Loves,Loved,Loving >> Lov by Stemming Lemmatization: 품사를 보존하며 단어의 원형을 찾기 ex) Love,Loves,Loved,Loving..
Abstract 현재 지배적인 Sequence 변환 모델은 Encoder와 Decoder를 포함한 복잡한 RNN or CNN 모델로 이루어져있다. 이 중 Best performace를 보이는 모델은 Encoder와 Decoder를 Attention Mechanism으로 연결 한 것이다. 본 논문에서는 새로운 Newtork: Transformer를 제안한다. Transformer을 두 가지 번역 과제를 대상으로 실험 한 결과, 품질 향상과 병렬 처리성으로 학습에 훨씬 적은 시간이 소요됐다. Transformer는 최고의 BLUE 를 달성했으며 크고 제한된 학습 데이터를 바탕으로 영어 뿐 아닌 다른 일반화된 작업에 역시 잘 적용할 수 있다. BLUE(Bilingual Evaluation Understandi..