My Progress

[NLP] 언어모델에 대해서 본문

Research

[NLP] 언어모델에 대해서

ghwangbo 2023. 7. 26. 09:27
반응형

2가지 종류의 언어모델

1. 통계학적 방법 / Probabilistic Methods

  • 뜻: 다음 단어를 확률적으로 추론하는 방법

N-gram possibilities

설명:

  • n-단어 시퀀스, 여기서 n은 0보다 큰 정수인 경우
  • n-그램의 마지막 단어가 특정한 n-1 그램을 따르는 조건부 확률(마지막 단어를 제외한 경우)
  • 마지막 단어를 제외한 n-1 그램 뒤에 따르는 마지막 단어의 출현 비율

단점:

  • 이전의 n 단어만이 다음 단어의 확률 분포에 영향을 미침
  • 결정에 문맥을 포함하지 않음
  • 다음 단어가 이전 n 단어로부터 명백하지 않을 수 있음
  • 모든 순열을 계산해야 함
  • 발생하지 않는 n-그램은 희소성 문제를 야기할 수 있음
  • 품질이 낮을 수 있음

2. 인공 신경망 기반 방법 / Neural network-based

  • 뜻: 인공 신경망을 이용하여 학습하는 방법

인공 신경망의 종류

  1. RNN (Recurrent Neural Network)
    1. 연속형 데이터를 잘 처리하기 위해 고안된 신경망
    2. 앞서 나온 정보들 만을 사용하여 예측
      1. 가까이 있는 입력에 영향을 더 많이 받음(장기 의존성 문제)
  2. LSTM (Long Term Short Memory)
    1. Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
      1. forget gate, input gate, output gate 사용하여 문제 해결
      2. Forget gate: 과거 정보를 얼마나 잊을지에 대한 단계
      3. Input gate: 현재 정보를 얼마나 기억할 것인지에 대한 단계
      4. Output gate: 다음 state로 내보낼 output을 구하는 단계
  3. GRU (Gated Recurrent Unit)
    1. LSTM의 간소화 버젼
    2. Reset gate와 Update Gate 추가
    3. Output gate가 없음
  4. Attention
    1. AI가 출력을 생성할 때 텍스트의 특정부분에 집중할수 있도록 하는 알고리즘
  5. Transformer
    1. 입력 데이터를 처리하기 위해 Self Attention Mechanism사용
    2. 멀리 있는 단어 번역까지도 연관성을 만들어 유사성을 높임
    3. 주어진 단어 번역을 위해 문장의 다른 모든 단어와 비교해 번역

모델이 만들어지는 과정

  1. Pre-training / 사전학습
    1. 대량의 데이터를 사용하여 미리 학습하는 과정
  2. Transfer Learning / 전이 학습
    1. 추가로 필요한 데이터를 학습시켜 모델의 성능을 최적화
  3. Fine-Tuning
    1. 태스크에 특화된 데이터를 학습
    2. 학습시 레이블링 된 데이터 사용(감성 분석, 자연어 추론, 질의 응답)

모델의 종류

  1. GPT(Generative Pre-trained Transformer)
    1. Architecture: Transformer의 디코더 Architecture 활용
      1. Transformer의 디코더 블럭을 12개 쌓아올려 만든 모델
    2. 일방향 / Unidirectional
      1. 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 Pre-Train
    3. 목적: 문장생성에 강점
      1. 자연어를 해석하여 새로운 문장 생성
    4. ex) ChatGPT, Bing AI
  2. Bert(Bidirectional Encoder Representation by Transformer)
    1. Architecture: Transformer의 인코더 Architecture 활용
    2. Method: 양방향 / Bidirectional
      1. 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞추는 과정에서 Pre-Train
    3. 목적: 의미 추출에 강점 / 질문 응답 / 어떤 대상의 목적에 대한 질문에 집중
      1. 자연어를 해석하여 정량화 하고 분류하는 목적
    4. ex) Google Bard
반응형