(서울=뉴스1) 김민석 기자 = 일론 머스크 xAI CEO가 18일 공개한 인공지능(AI) 챗봇 '그록3'의 성능이 오픈AI의 최신 AI 모델(챗GPT-4o 등)을 능가한 지를 두고 의견이 분분하다.
머스크는 생방송에서 △GPT(오픈AI) △V3·R1(딥시크) △제미나이(구글 딥마인드) 등 경쟁 모델보다 수학·과학·코딩 벤치마크에서 높은 점수를 기록한 점을 언급하며 "지구에서 가장 똑똑한 AI"라고 주장했다.
반면 전문가와 개발자들 사이에선 그록3가 수학·과학·코딩 분야에선 챗GPT를 앞서지만, 창의성과 맥락 이해 측면에서는 한계를 노출했다는 분석이 나온다.


xAI가 공개한 벤치마크 테스트 결과에 따르면 그록3는 미국 수학경시대회(AIME) 2024 문제에서 52% 정답률을 기록해 딥시크 V3(39%), 클로드 3.5 소네트(26%) 등보다 앞섰다.
그록3는 과학 관련 벤치마크인 'GPQA'에선 75%의 정답률로 △GPT-4o(65%) △ 클로드 3.5 소네트(50%) 등을 제쳤다. 코딩 분야 벤치마크 'LCB'에선 57점으로 GPT-4o(41점)를 앞섰다.
법률·의료 분야에서도 준수한 성능을 보였다. 법률 문서 요약 작업(20페이지 이상)에서 그록3는 30분 내 87% 정확도로 완료해 'GPT-4o' 대비 약 22% 빠르다는 평가를 받았다.
그록3의 강점은 '빅브레인'(Big Brain) 모드다. 어렵거나 복잡한 질문을 받으면 문제를 32단계로 분해해 단계별 검증을 수행한다. 추론에 추가 컴퓨팅 자원을 활용하고 답변에 이른 과정 등을 이용자에게 보여준다.

대신 창의성과 맥락 이해에서는 한계를 드러냈다. 창의성을 체크할 때 활용하는 '유니코드 변형 선택기 활용 암호 해독 테스트'에서 그록3는 7회 시도 중 2회 성공했다. SVG 형식의 펠리커니움 자전거 이미지 생성에는 모두 실패했다.
레딧·X(엣트위터) 등에선 그록3와 챗GPT 성능 비교를 두고 수천개의 글이 올라오며 열띤 토론이 펼쳐졌다.
이들 중에선 "그록3에 복잡한 알고리즘 설계를 요청하면 기존 깃허브(GitHub) 코드를 재조합하는 수준에 그쳐 아쉽다"는 반응도 다수 나왔다.
기업 전문가 그룹에서는 존 슈먼 오픈AI 수석 연구원이 "(그록3는) MMLU(57개 학문 종합 테스트) 결과를 미공개하고 있어 일반화 능력에 의문이 있다"며 경쟁사 모델을 직접 겨냥했다.
얀 르쿤 메타 AI 부문 수석 과학자는 "그록3의 수학적 성능은 인상적"이라면서도 "단일 플랫폼에 의존하는 한계가 있다"고 지적했다.
딥시크의 한 경영진(CTO)은 "자사 모델 R1은 1/10 규모로 동등 성능 달성"이라며 "그록3 개발에 들어간 GPU 20만 개 투자는 과잉"이라고 비판했다.
업계 관계자는 "사람의 장단점과 성격이 각각 다르듯이 AI 챗봇 모델별 각각 특성이 있어 최상위 모델 간 비교에서 특정 모델이 무조건 우월하다고 말하긴 어렵다"며 "그록3가 챗GPT를 압도한다는 머스크 말엔 어폐가 있지만 AI 기술 발전 방향을 결정짓는 변곡점이 될 것으로 보인다"고 말했다.
ideaed@news1.kr