transformer 4

Seq2Seq(Sequence to Sequence) 모델

Seq2Seq 모델은 입력 시퀀스를 고정된 길이의 벡터로 인코딩한 다음, 이를 기반으로 출력 시퀀스를 생성하는 딥러닝 모델 구조이다. 이 구조는 기계 번역, 텍스트 요약, 질의응답 시스템 등과 같은 자연어 처리 작업에서 특히 유용하다. 이제 더 깊이 들어가서 Seq2Seq 모델의 내부 동작, 학습 과정, 그리고 어텐션 메커니즘에 대해 자세히 설명하겠다.1. Seq2Seq 모델의 기본 구조인코더 (Encoder)역할: 인코더는 입력 시퀀스를 받아 이를 고정된 길이의 벡터로 압축하는 역할을 한다. 이 벡터를 '컨텍스트 벡터(context vector)'라고 한다.구조: 인코더는 일반적으로 RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory), 또는 GRU..

컴퓨터공학/RNN 2024.08.26

Transformer 이해하기

오늘은 Transformer를 이해하는 시간을 가져보고자 한다. Transformer를 이해함으로서 인공지능 알고리즘에 대한 접근에 좀더 다가갈 수 있겠지만 이미 아는 바와 같이 Transformer 알고리즘을 구현해서 효과를 보기 위해서는 엄청난 양의 학습데이터와 학습시간(리소스)을 요구하기 때문에 사실상 구현은 가능하지만 효과를 보기는 쉽지 않다. 그럼에도 Trasformer 에 대해 이해의 관점으로 접근하고자 한다. 이해해야 하는 기본 내용은 "Attention Is All You Need"의 구성도이다.1. 기본 용어 정리Tensor(T) : 수학에서 사용하는 다차원 배열Query(q) : 하나의 텐서. 입력의 단위Weight(w) : 연산에서의 가중치. 하나의 Query의 정보를 어느 정도를 수..

Switch Transformer

Switch Transformer는 Google Research에서 2021년에 발표한 모델로, 대규모 언어 모델을 더욱 효율적으로 학습하고 사용할 수 있도록 설계된 트랜스포머 아키텍처의 변형이다. 이 모델은 효율성과 성능을 동시에 추구하며, 단일 모델에서 조정 가능한 희소성(sparsity)을 도입하여 초대형 모델에서도 계산 자원과 메모리를 절약할 수 있는 방법을 제안한다. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityIn deep learning, models typically reuse the same parameters for all inputs. Mixture of Expert..

GPT(Generative pre-trained transformer)

GPT-1(Generative Pre-trained Transformer 1)은 2017년 Google의 트랜스포머 아키텍처 발명에 이은 OpenAI의 첫 번째 대규모 언어 모델입니다. 2018년 6월, OpenAI는 "Improving Language Understanding by Generative Pre-Training"이라는 제목의 논문을 발표했으며, 이 논문에서 생성형 사전 훈련된 트랜스포머의 일반적인 개념과 함께 초기 모델을 소개했다. Improving Language Understanding by Generative Pre-Training그 시점까지 가장 성능이 좋은 신경망 NLP 모델은 주로 수동으로 레이블링된 대량의 데이터로부터 지도 학습을 사용했다. 지도 학습에 대한 이러한 의존은 주석..