Research
[NLP] 언어모델에 대해서
ghwangbo
2023. 7. 26. 09:27
반응형
2가지 종류의 언어모델
1. 통계학적 방법 / Probabilistic Methods
- 뜻: 다음 단어를 확률적으로 추론하는 방법
N-gram possibilities
설명:
- n-단어 시퀀스, 여기서 n은 0보다 큰 정수인 경우
- n-그램의 마지막 단어가 특정한 n-1 그램을 따르는 조건부 확률(마지막 단어를 제외한 경우)
- 마지막 단어를 제외한 n-1 그램 뒤에 따르는 마지막 단어의 출현 비율
단점:
- 이전의 n 단어만이 다음 단어의 확률 분포에 영향을 미침
- 결정에 문맥을 포함하지 않음
- 다음 단어가 이전 n 단어로부터 명백하지 않을 수 있음
- 모든 순열을 계산해야 함
- 발생하지 않는 n-그램은 희소성 문제를 야기할 수 있음
- 품질이 낮을 수 있음
2. 인공 신경망 기반 방법 / Neural network-based
- 뜻: 인공 신경망을 이용하여 학습하는 방법
인공 신경망의 종류
- RNN (Recurrent Neural Network)
- 연속형 데이터를 잘 처리하기 위해 고안된 신경망
- 앞서 나온 정보들 만을 사용하여 예측
- 가까이 있는 입력에 영향을 더 많이 받음(장기 의존성 문제)
- LSTM (Long Term Short Memory)
- Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
- forget gate, input gate, output gate 사용하여 문제 해결
- Forget gate: 과거 정보를 얼마나 잊을지에 대한 단계
- Input gate: 현재 정보를 얼마나 기억할 것인지에 대한 단계
- Output gate: 다음 state로 내보낼 output을 구하는 단계
- Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
- GRU (Gated Recurrent Unit)
- LSTM의 간소화 버젼
- Reset gate와 Update Gate 추가
- Output gate가 없음
- Attention
- AI가 출력을 생성할 때 텍스트의 특정부분에 집중할수 있도록 하는 알고리즘
- Transformer
- 입력 데이터를 처리하기 위해 Self Attention Mechanism사용
- 멀리 있는 단어 번역까지도 연관성을 만들어 유사성을 높임
- 주어진 단어 번역을 위해 문장의 다른 모든 단어와 비교해 번역
모델이 만들어지는 과정
- Pre-training / 사전학습
- 대량의 데이터를 사용하여 미리 학습하는 과정
- Transfer Learning / 전이 학습
- 추가로 필요한 데이터를 학습시켜 모델의 성능을 최적화
- Fine-Tuning
- 태스크에 특화된 데이터를 학습
- 학습시 레이블링 된 데이터 사용(감성 분석, 자연어 추론, 질의 응답)
모델의 종류
- GPT(Generative Pre-trained Transformer)
- Architecture: Transformer의 디코더 Architecture 활용
- Transformer의 디코더 블럭을 12개 쌓아올려 만든 모델
- 일방향 / Unidirectional
- 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 Pre-Train
- 목적: 문장생성에 강점
- 자연어를 해석하여 새로운 문장 생성
- ex) ChatGPT, Bing AI
- Architecture: Transformer의 디코더 Architecture 활용
- Bert(Bidirectional Encoder Representation by Transformer)
- Architecture: Transformer의 인코더 Architecture 활용
- Method: 양방향 / Bidirectional
- 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞추는 과정에서 Pre-Train
- 목적: 의미 추출에 강점 / 질문 응답 / 어떤 대상의 목적에 대한 질문에 집중
- 자연어를 해석하여 정량화 하고 분류하는 목적
- ex) Google Bard
반응형