paper: https://arxiv.org/pdf/1706.03762.pdf

시작하기에 앞서

Transformer를 처음 들은 건 학과 수업시간에 잠깐 언급됐을 때였고, 그 이후로 transformer가 자연어 처리에 이용되는 어떤 것으로 알고 있었다.

그러나 점차 자연어 뿐만 아니라 비전 쪽에서도 많이 다룬다고 한다.

Transformer는 2017년 구글이 제안한 시퀀스-투-시퀀스 모델로, 논문 리뷰에 앞서 transformer에 대해 간략히 짚어보고 가려한다.

시퀀스-투-시퀀스 모델은 encoder의 최종 output을 일종의 embedded vector로 사용하여 decoder에 넣어주게 되는데, memory와 computation 때문에 vector의 길이를 제한한다.

그래서 긴 시퀀스 데이터를 처리해야할 때, 제한된 vector로 모든 정보를 담아내야하기 때문에 정보의 손실이 커지고 이에 따라 성능 저하가 일어난다.

이러한 문제를 완화하기 위해 attention을 적용하는 등의 여러 시도가 있었고, 그 중 가장 강력한 방법이 바로 transformer라고 한다.

이번 리뷰 논문은 Attention Is All You Need로, 일명 transformer 모델을 통해 획기적으로 성능을 높인 유명한 논문이다.

Abstract

dominant sequence transduction 모델들은 주로 encoder와 decoder가 포함된 복잡한 RNN이나 CNN를 사용했는데, 이것들이 아닌 새로운 네트워크 모델인 Transformer를 사용하여 WMT 2014 영어-독어 번역에서 28.4의 BLEU를 달성했다.

또, 영어-프랑스어 번역에선 41.8 BLEU의 SOTA를 달성하는 등 훌륭한 성능을 보였다.

BLEU란 한 자연어에서 다른 자연어로 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법이다.

Introduction

RNN은 시퀀스 정보를 압축하는 데 강점이 있는 구조로, 소스 시퀀스를 차례대로 처리한다. 하지만 RNN은 시퀀스 길이가 길어질수록 정보 압축에 문제가 생하는데, 오래 전에 입력된 단어는 잊어버리거나, 특정 단어 정보를 과도하게 반영하여 전체 정보를 왜곡 시키는 경우가 생긴다.