카카오, 텍스트·이미지 동시에 이해하는 '카나나V' 성능 공개

GPT4o 대비 한국어 문서 이해·풀이 능력 뛰어나
음성·영상도 처리하는 통합 멀티모달 언어모델 카카오-o 개발 중

2024.12.05 오후 4:41

카나나 모델 라인업 (카카오 제공)

(서울=뉴스1) 손엄지 기자 = 카카오(035720)가 한국어, 한국 문화, 장소 등에 특화된 자체 멀티모달 언어모델(MLLM) '카나나-v'(Kanana-v)의 성능과 특징을 공식 테크블로그를 통해 5일 공개했다.

카카오는 지난 10월 개최한 개발자 콘퍼런스 '이프 카카오 2024'(if kakaoAI 2024)에서 자체 인공지능(AI) 모델 '카나나'(Kanana)의 라인업을 공개한 바 있다.

카나나 모델은 언어모델(LLM) 3종과 MLLM 3종, 비주얼 생성모델 2종, 음성모델 2종으로 크기나 종류, 특성에 따른 하위 모델들과 함께 구성된다.

테크블로그에서 공개한 '카나나-v'는 MLLM이다. 카카오는 언어모델을 기반으로 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리할 수 있는 멀티모달 언어모델을 개발해왔다.

'카나나-v'는 사용자가 제공하는 이미지에서 정보를 이해하고 적절한 답변을 제공한다. 한국어의 고유 특성과 문화적 맥락을 잘 이해해 다양한 한국어 능력을 수행할 수 있도록 설계했다.

Kanana-v의 한국어 성능 비교

오픈AI의 GPT 4o 등 글로벌 모델과 △한국어 OCR △한국어 문서·도표 이해 △한국어 문제 풀이 △한국 문화 지식 이해를 기준으로 성능 비교를 진행한 결과 '카나나-v'가 전반적으로 뛰어난 성능을 기록했다.

특히 한국어 인식 능력을 판단하는 OCR 항목에서 압도적인 성능을 보이는 것으로 나타났다. OCR은 이미지를 스캔하거나 사진으로 찍은 문서에서 텍스트를 추출하는 기술이다.

'카나나-v'는 단순한 이미지 분석을 넘어서 이미지를 이해하고 창의적인 글을 쓰는 것도 가능하다. 다양한 형태의 문서를 요약하고, 수학 문제를 추론하고, 손글씨를 이해하고 답변도 할 수 있다.

수학추론 예시

상식 예시

카카오는 향후 '카나나-v' 모델의 고도화에 있어 정확한 답변을 넘어 사용자 선호에 맞춘 답변을 하는 능력과 온디바이스 환경에서 동작하는 것을 목표 과제로 수행할 계획이다.

카카오는 이미지는 물론 음성, 영상까지도 동시 처리할 수 있는 통합 멀티모달 언어모델 '카나나-o'(Kanana-o)도 개발 중이다.

카나나-o는 이프카카오 기조세션에서 실제 음성으로 이용자와 자연스럽게 상호작용하는 데모 영상을 통해 기술력을 공개한 바 있다.

카나나 알파 소속으로 멀티모달 언어모델을 연구 개발하고 있는 차준범 연구원은 테크블로그에서 "더 많은 모달리티를 다뤄 AI가 우리 일상에 보다 실질적인 도움을 제공하는 진정한 파트너로 발전하길 기대한다"고 말했다.

한편 카카오는 테크블로그를 통해 이크카카오 세션에서 발표한 카나나 모델 패밀리를 비롯해 언어모델, 비주얼 생성모델 등 여러 모델들의 성능과 개발기를 공개하고 있다.

eom@news1.kr