카카오 새 AI 모델 '카나나'…사람처럼 보고 들으며 일상 돕는다

고성능·투명성·최적화 내세워 글로벌 시장서 경쟁
포털 다음·쇼핑 등으로 확대 적용

2024.10.23 오전 11:59

업데이트 2024.10.23 오후 2:09

김병학 카나나알파 성과리더는 23일 카카오 AI 캠퍼스에서 열린 'if(kakaoAI) 2024'(이프카카오 AI 2024)에서 세션을 진행하고 있다. 2024.10.23. ⓒ 뉴스1

(서울=뉴스1) 신은빈 기자 = 카카오(035720)가 새로운 인공지능(AI) 모델 '카나나'의 구체적인 라인업을 공개했다. 모델을 종합하면 카나나는 언어는 물론 이미지와 영상, 음성까지 사용자에 최적화된 형태로 생성할 수 있다.

김병학 카나나알파 성과리더는 23일 카카오 AI 캠퍼스에서 열린 'if(kakaoAI) 2024'(이프카카오 AI 2024)에서 "카나나는 기존에 카카오가 제공하던 AI 기술보다 고도화된 기술로, 사람처럼 보고 듣고 말하는 모델을 목표로 개발했다"고 밝혔다.

카나나 모델은 크게 △언어 모델 △멀티모달 언어모델 △비주얼 생성 모델 △음성 모델로 구성된다.

언어 모델은 가장 작은 형태의 '나노'(NANO)와 중형 크기 범용 모델 '에센스'(ESSENCE), 가장 큰 '플래그'(FLAG) 등 3가지다.

멀티모달 언어모델은 오디오를 뜻하는 '카나나-a'와 비전을 뜻하는 '카나나-v', 통합을 뜻하는 '카나나-o'로 이뤄졌다.

비주얼 생성 모델은 비디오를 생성하는 '키네마'(KINEMA)와 개인화된 이미지를 생성하는 '콜라주'(KOLLAGE) 두 가지고, 음성 모델은 사람처럼 자연스럽게 듣는 '카브'(KARVE)와 감정이 섞인 음성합성모델 '캐스트'(KAST)로 세분됐다.

카나나의 핵심 기능 3가지는 고성능·투명성·최적화다. 김 리더는 "카나나는 '라마' 등 글로벌 선두 모델과 성능이 비슷한 데다가 한국어 처리 성능은 압도적"이라며 "국내시장뿐 아니라 글로벌 시장에서도 경쟁력이 있을 것"이라고 말했다.

이어 "저작권과 개인정보 이슈를 완전히 해결한 정보를 수집해 정보 처리 전 과정에서 투명성을 확보했다"면서 "처리 시간과 비용까지 고려한 비용 효율적 모델로, 실제 서비스 환경에서 더 효과적일 것"이라고 부연했다.

카나나는 현재 카카오톡 AI 내용 요약 등 여러 카카오 서비스에 최적화된 형태로 적용 중이다. 향후 카나나 애플리케이션(앱)을 비롯해 다음이나 쇼핑 등 다양한 곳에 확대될 계획이다.

(카카오 제공)

카나나 모델에 적용된 거대언어모델(LLM)은 대화의 흐름을 읽고 연결된 반응을 보일 수 있다.

김 리더는 "단순히 언어 성능만 높일 것이 아니라 사용자와 깊이 있는 상호작용을 이끌도록 기술을 구현했다"면서 "정확한 지식과 통찰력으로 사용자의 일상을 옆에서 도와주는 서비스를 제공하겠다"고 강조했다.

콘퍼런스에서는 멀티모달 언어모델 '카나나-o' 성능도 엿볼 수 있었다.

사용자가 음성으로 "스쾃할 때 어떤 점을 주의해야 할까"라고 묻자 모델은 "스쾃할 땐 코어를 단단히 유지하고, 등을 곧게 펴고, 복근에 힘을 주며 다리를 곧게 유지하는 게 중요해요"라는 음성과 텍스트 답변을 함께 내놨다.

이 모델은 다양한 형태의 데이터를 동시에 이해해 텍스트와 오디오를 함께 생성하며 어떤 질문에도 평균 1.6초의 속도로 빠른 답변을 출력해 준다. 카카오는 카메라에도 이 기능을 적용해 궁금한 사물을 비추면 실시간 대화하는 서비스를 도입할 방침이다.

김 리더는 "카나나의 핵심은 단순히 똑똑한 성능에서 그치는 게 아니라 사용자 문제를 직접 해결하고 실질적인 가치를 제공하는 실용적인 서비스로 구현하는 것"이라고 말했다.

bean@news1.kr