Research

[NLP] GPT-4 성능하락 관련 논문 요약

ghwangbo 2023. 7. 26. 11:03
반응형

1. 연구목적:

GPT-4와 GPT-3.5의 2023 3월과 6월에 스냅샷 된 두가지 버전사이의 변화 측정

 

2. 연구방법

4가지 작업에 대해서 평가 

 

1. 수학문제풀이: 정확도비교

2. 민감하거나 위험한 질문에 대한 답변: 답변률

3. 코드생성: 생성된 코드로 직접 실행 가능여부

4. 시각적 추론: 정확성

 

추가 측정 방법:

1. 생성길이

2. 답변이 일치하는지에 대한 중복성과 일관성

 

3. 4가지 작업에 대한 비교 평가

 

4. 연구 결과

 

- GPT-3.5와 GPT-4의 행동이 짧은 시간 동안 상당히 변했다는 것을 확인했다.

- 대형 언어 모델의 행동을 지속적으로 평가하고 검증해야한다

 

 

출처: https://arxiv.org/pdf/2307.09009.pdf

반응형