
BERT 기초 개념 BERT: Transformer에서 Encoder만 사용하는데 에떄 Bidirectional 정보만 사용한다. Pretrain: 언어 모델링 과정 Masked Language Model(MLM): 특정 위치의 부분을 Masking하고 예측하도록 만든다. 즉, 양방(forward, backward)으로 Masked 단어 주변을 모두 사용해 예측한다. Next sentence prediction(NSP): 특정한 두 쌍의 sentence가 들어왔을 때 해당하는 다음 sentence가 들어왔을 때 corpus에서 실직적으로 원래 다음에 등장한 것인지 판별한다. Fine-Tuning: Pre-train된 모델을 가져와 BERT의 제일 윗단에 하나의 단순한 레이어만을 추가해서 Fine-Tuni..