챗GPT 새 추론 모델, 성능 개선됐지만 "환각률도 두 배 급증"

김정현 기자

2025.04.20 오후 02:29

o3·o4-미니, 환각률 각각 33%, 48% 기록
성능 향상됐어도 "o3, 다른 버전보다 유용성 떨어져"

본문 이미지 - 오픈AI o3 이미지(샘 올트먼 오픈AI CEO X 갈무리)/뉴스1 — 오픈AI o3 이미지(샘 올트먼 오픈AI CEO X 갈무리)/뉴스1

(서울=뉴스1) 김정현 기자 = 오픈AI가 최근 공개한 추론형 AI 모델 챗GPT 'o3'와 'o4-미니'가 성능 향상에도 불구하고 '환각'(hallucination) 현상은 크게 심해진 것으로 드러났다. 환각은 AI가 존재하지 않거나 맥락과 관련 없는 답변을 진실인 것처럼 답하는 것을 말한다.

20일 미국 IT매체 테크크런치에 따르면 오픈AI는 자체 벤치마크 테스트인 퍼슨 QA에서 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보인 것을 발견했다.

이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%로, 신 모델들의 환각 반응은 거의 2배 이상 증가한 셈이다.

심지어 비추론 모델인 GPT-4o 보다도 o3, o4-미니의 환각이 더 자주 발생한 것으로 알려졌다.

앞서 오픈AI는 16일(현지시간) "역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것"이라고 홍보하며 o3·o4-미니 모델을 공개한 바 있다.

두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 냈다. 이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록하며 고성능을 뽐냈다.

코딩 능력을 검증하는 SWE 벤치마크 테스트에서도 o3는 69.1%, o4-미니는 68.1%의 정답률을 기록했다. 전작인 o3-미니(49.3%)는 물론, 경쟁 AI인 클로드 3.7 소넷(62.3%)을 능가하는 수치다.

다만 이런 성능 개선에도 불구하고 환각률이 높을 경우 결과물을 신뢰하기 어렵다는 지적도 나온다.

비영리 AI연구소 트랜슬루스(Transluce)는 o3가 답변 도출 과정에서 수행 작업을 조작한 경향이 있다는 증거도 있다고 지적했다.

사라 슈웨트만 트랜슬루스 공동창립자는 테크크런치에 "o3는 환각률 때문에 다른 버전보다 유용성이 떨어질 수 있다"고 꼬집었다.

다만 오픈 AI 측은 o3와 o4-미니의 높은 환각률의 명확한 원인과 대책을 제시하지 못한 상태다. 오픈AI는 기술 보고서를 통해 "더 많은 연구가 필요하다"고 밝혔다.

Kris@news1.kr

관련 키워드

김정현 기자