[NLP] 언어모델에 대해서

Notice

Recent Posts

Tags more

Archives

관리 메뉴

My Progress

Research

ghwangbo 2023. 7. 26. 09:27

N-gram possibilities

설명:

단점:

RNN (Recurrent Neural Network)
1. 연속형 데이터를 잘 처리하기 위해 고안된 신경망
2. 앞서 나온 정보들 만을 사용하여 예측
  1. 가까이 있는 입력에 영향을 더 많이 받음(장기 의존성 문제)
LSTM (Long Term Short Memory)
1. Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
  1. forget gate, input gate, output gate 사용하여 문제 해결
  2. Forget gate: 과거 정보를 얼마나 잊을지에 대한 단계
  3. Input gate: 현재 정보를 얼마나 기억할 것인지에 대한 단계
  4. Output gate: 다음 state로 내보낼 output을 구하는 단계
GRU (Gated Recurrent Unit)
1. LSTM의 간소화 버젼
2. Reset gate와 Update Gate 추가
3. Output gate가 없음
Attention
1. AI가 출력을 생성할 때 텍스트의 특정부분에 집중할수 있도록 하는 알고리즘
Transformer
1. 입력 데이터를 처리하기 위해 Self Attention Mechanism사용
2. 멀리 있는 단어 번역까지도 연관성을 만들어 유사성을 높임
3. 주어진 단어 번역을 위해 문장의 다른 모든 단어와 비교해 번역

GPT(Generative Pre-trained Transformer)
1. Architecture: Transformer의 디코더 Architecture 활용
  1. Transformer의 디코더 블럭을 12개 쌓아올려 만든 모델
2. 일방향 / Unidirectional
  1. 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 Pre-Train
3. 목적: 문장생성에 강점
  1. 자연어를 해석하여 새로운 문장 생성
4. ex) ChatGPT, Bing AI
Bert(Bidirectional Encoder Representation by Transformer)
1. Architecture: Transformer의 인코더 Architecture 활용
2. Method: 양방향 / Bidirectional
  1. 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞추는 과정에서 Pre-Train
3. 목적: 의미 추출에 강점 / 질문 응답 / 어떤 대상의 목적에 대한 질문에 집중
  1. 자연어를 해석하여 정량화 하고 분류하는 목적
4. ex) Google Bard

GPU (0)	2023.07.27
[NLP] Prompt Engineering / 프롬프트 엔지니어링 (0)	2023.07.26
[NLP] GPT-4 성능하락 관련 논문 요약 (1)	2023.07.26
[NLP] 2023 Summer LLM/언어모델 시장 트렌드 (0)	2023.07.26

'Research' Related Articles