"사람 넘었다?" 구글 '제미나이' 기능과 논란[손엄지의 IT살롱]

사람처럼 사고하는 제미나이…멀티모달로 음성, 영상 인식
아직 GPT4 앞서지 못했다는 지적도…내년 초 제미나이 울트라 공개

미국 캘리포니아주 마운틴뷰에 위치한 구글 본사 전경. 2019.5.16. ⓒ 로이터=뉴스1 ⓒ News1

(서울=뉴스1) 손엄지 기자 = 구글이 내놓은 인공지능(AI) 모델 제미나이(Gemini)가 뜨거운 관심사다. 텍스트로 된 질문에 답을 내놓는 것을 넘어서서 음성, 영상으로 소통이 가능한 멀티모달 모델이다. 일각에서는 오픈AI의 GPT4를 넘어섰다는 반응도 나온다.

구글이 공개한 제미나이 시연 영상을 보면 장난감 오리를 보여주면서 "이게 뜰까?"라고 질문을 한다. 그러면 제미나이는 "어떤 재질인지 모르지만 고무나 플라스틱처럼 보인다"고 시각적으로 판단한다. 그리고 눌러서 '삑'소리를 내자 제미나이는 "분명히 물에 뜰 것"이라고 답한다.

그동안 공개된 AI는 사람처럼 사고하지 못했다. 예를 들어 사람은 사과를 생각하면 생김새와 색깔, 맛 등을 떠올릴 수 있지만 AI는 사과라는 단어를 쓰면서도 실제 세상에는 어떤 형태로 존재하는지 이해하지 못한다. 그래서 AI가 사람을 그릴 때 손가락을 여섯 개로 그리거나, 그림자를 그리지 않는 등 오류가 있었다. 진정한 AI는 글만 보고 영상을 떠올릴 수 있어야 하고, 영상을 보면서 글로 설명할 수 있어야 한다.

제미나이는 인간과 상호작용할 수 있는 멀티모달 기술을 선보였다. 문자를 넘어 소리, 동작 등을 인식할 수 있는 것이다. 아예 바닥부터 멀티모달로 만들어 인간이 세계를 인식하는 방식과 똑같이 세계를 이해한다. 구글은 곧 '촉각'과 같은 다른 감각도 추가할 예정이라고 한다.

제미나이는 코딩에서 놀라운 성과를 보인다. 프로그래밍 대회를 개최하는 한 사이트에서 제미나이가 만든 프로그램이 상위 15%에 해당하는 성적을 냈다고 밝혔다. 100명 중 15등에 해당하는 성적인 셈이다. 이제 웬만하면 내가 원하는 애플리케이션(앱)은 누구나 쉽게 만들 수 있을 것으로 보인다.

제미나이 모델은 울트라, 프로, 나노 세 가지다. 울트라가 가장 최고 성능의 모델이고 프로는 중간 사이즈 모델로 바드(bard)에 적용돼 있다. 나노는 '온디바이스' 형태로 구글 픽셀에 탑재될 예정이다. 인터넷 없이도 AI 기능을 쓸 수 있도록 하겠다는 것이다.

다만 논란도 있다. 제미나이 시연 영상에서는 짧은 시간에 완벽한 답변을 하는 것처럼 보였지만 이는 편집본이었다. 구글은 "시연은 실시간으로 진행하지 않고 미리 준비된 이미지와 텍스트 프롬프트를 기반으로 제작했다"면서 "제미나이가 멀티모달 기능으로 상호작용할 수 있다는 것을 예시로 보인 것"이라고 해명했다.

제미나이가 GPT4보다 더 높은 벤치마크 테스트 성적을 받았다는 발표에 마이크로소프트(MS)는 반박에 나섰다. GPT4에 고도의 프롬프트 엔지니어링을 거쳐 제미나이 성능을 뛰어넘는 성적을 받았다는 것이다.

또 제미나이를 사용해 본 이용자들은 올해 오스카상 후보를 맞히지 못했고, 하마스 전쟁과 같은 논란이 되는 주제는 "검색을 해보라"는 식으로 회피했다고 지적했다. 블룸버그는 "느릿느릿한 검색 대기업이 챗GPT에 앞서가는 모습을 보이기 위해 애쓰고 있다"고 비판했다.

이러한 논란은 구글이 울트라 버전을 공개해야 사그라들 것으로 보인다. 구글의 시연 영상은 프로 버전에서 구동한 결과다. 구글은 내년 초 더 규모가 크고 성능이 뛰어난 울트라 버전을 공개한다. 현재 안전성과 신뢰성을 검증하는 과정을 거치고 있다.

구글은 향후 제미나이를 로봇에 적용할 계획을 밝혔다. 실제 사람처럼 사고하는 AI에 물리적 형태를 만들어 물리적으로 세상과 소통할 수 있는 로봇을 만드는 것이다. 진짜 멀티모달이 되는 셈이다.

오픈AI의 새로운 모델에도 업계는 주목하고 있다. 제미나이가 GPT4를 앞섰다는 평가도 있지만 GPT4는 이미 9개월 전 기술이다. 내년에 오픈AI도 세상을 놀라게 할 새로운 AI 모델을 내놓을 것으로 보인다.

ⓒ News1 김지영 디자이너

eom@news1.kr