Research
[NLP] GPT-4 성능하락 관련 논문 요약
ghwangbo
2023. 7. 26. 11:03
반응형
1. 연구목적:
GPT-4와 GPT-3.5의 2023 3월과 6월에 스냅샷 된 두가지 버전사이의 변화 측정
2. 연구방법
4가지 작업에 대해서 평가
1. 수학문제풀이: 정확도비교
2. 민감하거나 위험한 질문에 대한 답변: 답변률
3. 코드생성: 생성된 코드로 직접 실행 가능여부
4. 시각적 추론: 정확성
추가 측정 방법:
1. 생성길이
2. 답변이 일치하는지에 대한 중복성과 일관성
3. 4가지 작업에 대한 비교 평가
4. 연구 결과
- GPT-3.5와 GPT-4의 행동이 짧은 시간 동안 상당히 변했다는 것을 확인했다.
- 대형 언어 모델의 행동을 지속적으로 평가하고 검증해야한다
반응형