
Transformer: RNN과 다르게 한번에 모든 토큰을 처리한다. 즉, Attention 사용 + 속도가 매우 빠르다. Transformer의 구조 Encoder: 한번에 모든 Sequence를 사용해 Unmasked 구조이다. Decoder: 생성 시 순차적으로 처리해야하므로 순서에 따라 Masked 구조이다. Encoder, Decoder component: 여러개의 Layer을 반복적으로 Stack 쌓음. Encoder: 2단구조( Self Attention Layer + Feed Forward Neural Network) Self Attention Layer: Token 처리 시 함께 주어진 다른 Input들을 얼마나 중요하게 볼 것인지에 대한 계산. 이때 단어의 Position은 그대로 적용..