NLP 6

GRU(Gated Recurrent Unit)

GRU(Gated Recurrent Unit)는 순환 신경망(RNN, Recurrent Neural Network)의 변형 중 하나로, LSTM(Long Short-Term Memory)의 대안으로 제안되었다. GRU는 LSTM과 유사하게 장기 의존성 문제를 해결하려 하지만, 더 간단한 구조를 가지고 있어 계산 효율이 높다는 특징이 있다. GRU는 2014년 Kyunghyun Cho와 그의 동료들에 의해 처음 소개되었다.GRU의 구조GRU는 LSTM과 달리 별도의 셀 상태(cell state) 없이, 단일 히든 상태(hidden state)를 통해 정보를 전달한다. GRU는 다음과 같은 두 가지 주요 게이트로 구성된다:리셋 게이트(Reset Gate):리셋 게이트는 현재의 입력 정보와 이전의 히든 상태 ..

컴퓨터공학/RNN 2024.08.27

Word2Vec

Word2Vec은 자연어 처리(NLP)에서 단어를 벡터로 변환하는 방법을 제시한 모델이다. 이 모델은 단어의 의미적 유사성을 벡터 공간에서 반영하여 단어 간의 관계를 학습한다. Word2Vec은 구글의 연구원인 Tomas Mikolov와 그의 동료들에 의해 2013년에 제안되었다. 1. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). "Efficient Estimation of Word Representations in Vector Space." 이 논문에서는 Word2Vec 모델의 기본 개념과 CBOW 및 Skip-gram 모델을 설명한다. 이 논문은 단어의 벡터 표현을 효율적으로 학습하는 방법을 제시하였으며, 자연어 처리의 여러 작업에 혁신적인 영향을..

컴퓨터공학/NN 2024.08.21

Switch Transformer

Switch Transformer는 Google Research에서 2021년에 발표한 모델로, 대규모 언어 모델을 더욱 효율적으로 학습하고 사용할 수 있도록 설계된 트랜스포머 아키텍처의 변형이다. 이 모델은 효율성과 성능을 동시에 추구하며, 단일 모델에서 조정 가능한 희소성(sparsity)을 도입하여 초대형 모델에서도 계산 자원과 메모리를 절약할 수 있는 방법을 제안한다. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityIn deep learning, models typically reuse the same parameters for all inputs. Mixture of Expert..

BERT(Bidirectional Encoder Representations from Transformers)

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 구글 AI에서 개발한 자연어 처리(NLP) 모델로, 트랜스포머(Transformer) 아키텍처를 기반으로 한다. BERT는 다양한 NLP 작업에서 혁신적인 성능을 보여주었고, 이후 많은 연구 및 응용 모델들의 기초가 되었다. BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from T..

GPT(Generative pre-trained transformer)

GPT-1(Generative Pre-trained Transformer 1)은 2017년 Google의 트랜스포머 아키텍처 발명에 이은 OpenAI의 첫 번째 대규모 언어 모델입니다. 2018년 6월, OpenAI는 "Improving Language Understanding by Generative Pre-Training"이라는 제목의 논문을 발표했으며, 이 논문에서 생성형 사전 훈련된 트랜스포머의 일반적인 개념과 함께 초기 모델을 소개했다. Improving Language Understanding by Generative Pre-Training그 시점까지 가장 성능이 좋은 신경망 NLP 모델은 주로 수동으로 레이블링된 대량의 데이터로부터 지도 학습을 사용했다. 지도 학습에 대한 이러한 의존은 주석..

Attention is All You Need

"Attention Is All You Need"는 Google에서 일하는 8명의 과학자가 저술한 기계 학습 분야의 2017년 기념비적 연구 논문으로, 2014년 Bahdanau 등이 제안한 어텐션 메커니즘을 기반으로  자연어 처리(NLP) 분야에서 큰 혁신을 일으킨 트랜스포머(Transformer) 모델을 소개하고 있다. 이 논문은 전통적인 순차 처리 방식의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과는 달리, 완전히 Attention 메커니즘에 기반한 모델을 제안하여 성능과 효율성 면에서 뛰어난 결과를 보여준다. Attention Is All You NeedThe dominant sequence transduction models ar..