컴퓨터공학/Transformer

Attention is All You Need

airoot 2024. 8. 18. 19:00

"Attention Is All You Need"는 Google에서 일하는 8명의 과학자가 저술한 기계 학습 분야의 2017년 기념비적 연구 논문으로, 2014년 Bahdanau 등이 제안한 어텐션 메커니즘을 기반으로  자연어 처리(NLP) 분야에서 큰 혁신을 일으킨 트랜스포머(Transformer) 모델을 소개하고 있다. 이 논문은 전통적인 순차 처리 방식의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과는 달리, 완전히 Attention 메커니즘에 기반한 모델을 제안하여 성능과 효율성 면에서 뛰어난 결과를 보여준다.

 

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new

arxiv.org

 

 

이 논문은 트랜스포머가 GPT 기반과 같은 대규모 언어 모델의 주요 아키텍처가 되었기 때문에 현대 인공 지능의 기초 논문으로 간주된다. 당시 연구의 초점은 기계 번역을 위한 Seq2seq 기법을 개선하는 것이었지만 저자들은 논문에서 더 나아가 질문 답변 및 다중 모드 생성 AI와 같은 다른 작업에 대한 이 기술의 잠재력을 예측했다.

이 논문의 제목은 비틀즈의 노래 "All You Need Is Love"에서 따왔다

 

기본 구조

논문의 주요 내용

  1. 트랜스포머 모델의 개요: 트랜스포머는 인코더-디코더(Encoder-Decoder) 구조를 따르며, 주로 기계 번역과 같은 시퀀스-투-시퀀스(sequence-to-sequence) 작업에 사용된다. 이 모델은 텍스트의 문맥을 이해하기 위해서 Self-Attention 메커니즘을 활용한다. 트랜스포머의 핵심은 Attention 메커니즘이 RNN이나 CNN의 복잡성을 제거하고도 우수한 성능을 발휘할 수 있다는 점이다.
  2. Self-Attention 메커니즘:
    • Self-Attention은 입력 시퀀스의 각 단어가 다른 모든 단어들과의 연관성을 계산하는 방법이다. 이를 통해 문장 내에서 중요한 단어들 간의 관계를 파악할 수 있다.
    • 입력의 각 위치에 대해, Self-Attention은 Query, Key, Value 세 가지 벡터를 생성한다. 각 단어에 대해 Query 벡터와 모든 다른 단어들의 Key 벡터 간의 점곱(dot-product)을 통해 연관성을 구하고, 그 결과를 사용하여 Value 벡터들을 가중 평균하여 최종 출력을 만든다.
    • 여러 개의 Attention 헤드를 사용하여 다른 위치에서 다양한 관계를 학습하는 Multi-Head Attention을 구현한다.
  3. 인코더와 디코더 구조:
    • 인코더: 입력 시퀀스를 처리하여 정보가 압축된 형태로 변환한다. 여러 개의 인코더 레이어가 쌓여 있으며, 각 레이어는 Self-Attention과 피드포워드 신경망으로 구성된다.
    • 디코더: 인코더에서 나온 정보를 바탕으로 새로운 시퀀스를 생성한다. 디코더는 이전에 생성된 출력과 인코더의 출력을 함께 활용하며, Masked Multi-Head Attention 메커니즘을 사용해 미래의 단어를 참조하지 않도록 한다.
  4. 포지셔널 인코딩(Positional Encoding): 트랜스포머는 순서에 의존하지 않기 때문에, 단어의 순서를 나타내기 위해 포지셔널 인코딩을 추가해야 한다. 이는 Sign과 Cosign 함수 기반의 주기적인 함수를 사용하여 입력 벡터에 추가된다.
  5. 성능 및 결과:
    • 논문에서 제안된 트랜스포머 모델은 다양한 기계 번역 작업에서 기존의 RNN/LSTM 모델을 능가하는 성능을 보여준다.
    • 특히 병렬 처리의 효율성이 높아, 학습 속도가 빠르고 대규모 데이터 처리에 적합하다.
  6. 혁신적 기여:
    • 트랜스포머는 NLP 모델링에서 Attention 메커니즘의 중요성을 입증했으며, 이후 BERT, GPT와 같은 대규모 사전 학습된 언어 모델들이 등장하는 계기가 되었다.
    • 트랜스포머의 아키텍처는 자연어 처리 외에도 이미지 처리, 음성 인식 등 다양한 분야에 응용되고 있다.

"Attention is All You Need" 논문은 Attention 메커니즘을 중심으로 한 트랜스포머 모델의 혁신적 설계를 소개하며, 이는 이후의 자연어 처리와 딥러닝 모델 설계에 커다란 영향을 미쳤다. 이 논문은 RNN이나 LSTM 없이도 우수한 성능을 낼 수 있는 방법을 제시하였고, NLP에서의 모델링 접근 방식을 근본적으로 변화시켰다.

 

Transformer 좀더 상세히 이해하기

'컴퓨터공학 > Transformer' 카테고리의 다른 글

Vision Transformer  (1) 2024.10.19
Transformer 이해하기  (0) 2024.08.21
Switch Transformer  (0) 2024.08.18
BERT(Bidirectional Encoder Representations from Transformers)  (0) 2024.08.18
GPT(Generative pre-trained transformer)  (0) 2024.08.18