Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- feature engineering
- Unsupervised Learning
- 언어모델
- LLM
- feature scaling
- prompt
- coursera
- 딥러닝
- AI 트렌드
- GPT
- ML
- Andrew Ng
- neural network
- learning algorithms
- 머신러닝
- nlp
- Deep Learning
- 챗지피티
- Machine Learning
- 인공신경망
- bingai
- 프롬프트 엔지니어링
- Scikitlearn
- llama
- ChatGPT
- Regression
- supervised ml
- Supervised Learning
- 인공지능
- AI
Archives
- Today
- Total
My Progress
[NLP] 언어모델에 대해서 본문
반응형
2가지 종류의 언어모델
1. 통계학적 방법 / Probabilistic Methods
- 뜻: 다음 단어를 확률적으로 추론하는 방법
N-gram possibilities
설명:
- n-단어 시퀀스, 여기서 n은 0보다 큰 정수인 경우
- n-그램의 마지막 단어가 특정한 n-1 그램을 따르는 조건부 확률(마지막 단어를 제외한 경우)
- 마지막 단어를 제외한 n-1 그램 뒤에 따르는 마지막 단어의 출현 비율
단점:
- 이전의 n 단어만이 다음 단어의 확률 분포에 영향을 미침
- 결정에 문맥을 포함하지 않음
- 다음 단어가 이전 n 단어로부터 명백하지 않을 수 있음
- 모든 순열을 계산해야 함
- 발생하지 않는 n-그램은 희소성 문제를 야기할 수 있음
- 품질이 낮을 수 있음
2. 인공 신경망 기반 방법 / Neural network-based
- 뜻: 인공 신경망을 이용하여 학습하는 방법
인공 신경망의 종류
- RNN (Recurrent Neural Network)
- 연속형 데이터를 잘 처리하기 위해 고안된 신경망
- 앞서 나온 정보들 만을 사용하여 예측
- 가까이 있는 입력에 영향을 더 많이 받음(장기 의존성 문제)
- LSTM (Long Term Short Memory)
- Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
- forget gate, input gate, output gate 사용하여 문제 해결
- Forget gate: 과거 정보를 얼마나 잊을지에 대한 단계
- Input gate: 현재 정보를 얼마나 기억할 것인지에 대한 단계
- Output gate: 다음 state로 내보낼 output을 구하는 단계
- Basic RNN의 장기 의존성 문제를 해결하기 위해 제안됨
- GRU (Gated Recurrent Unit)
- LSTM의 간소화 버젼
- Reset gate와 Update Gate 추가
- Output gate가 없음
- Attention
- AI가 출력을 생성할 때 텍스트의 특정부분에 집중할수 있도록 하는 알고리즘
- Transformer
- 입력 데이터를 처리하기 위해 Self Attention Mechanism사용
- 멀리 있는 단어 번역까지도 연관성을 만들어 유사성을 높임
- 주어진 단어 번역을 위해 문장의 다른 모든 단어와 비교해 번역
모델이 만들어지는 과정
- Pre-training / 사전학습
- 대량의 데이터를 사용하여 미리 학습하는 과정
- Transfer Learning / 전이 학습
- 추가로 필요한 데이터를 학습시켜 모델의 성능을 최적화
- Fine-Tuning
- 태스크에 특화된 데이터를 학습
- 학습시 레이블링 된 데이터 사용(감성 분석, 자연어 추론, 질의 응답)
모델의 종류
- GPT(Generative Pre-trained Transformer)
- Architecture: Transformer의 디코더 Architecture 활용
- Transformer의 디코더 블럭을 12개 쌓아올려 만든 모델
- 일방향 / Unidirectional
- 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 Pre-Train
- 목적: 문장생성에 강점
- 자연어를 해석하여 새로운 문장 생성
- ex) ChatGPT, Bing AI
- Architecture: Transformer의 디코더 Architecture 활용
- Bert(Bidirectional Encoder Representation by Transformer)
- Architecture: Transformer의 인코더 Architecture 활용
- Method: 양방향 / Bidirectional
- 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞추는 과정에서 Pre-Train
- 목적: 의미 추출에 강점 / 질문 응답 / 어떤 대상의 목적에 대한 질문에 집중
- 자연어를 해석하여 정량화 하고 분류하는 목적
- ex) Google Bard
반응형
'Research' 카테고리의 다른 글
GPU (0) | 2023.07.27 |
---|---|
[NLP] Prompt Engineering / 프롬프트 엔지니어링 (0) | 2023.07.26 |
[NLP] GPT-4 성능하락 관련 논문 요약 (1) | 2023.07.26 |
[NLP] 2023 Summer LLM/언어모델 시장 트렌드 (0) | 2023.07.26 |