와이즈넛, 멀티모달 RAG 과제 착수… 글·음성·이미지·영상 데이터 처리

초거대언어모델(LLM)의 구조적 한계 극복…사용자 의도 파악 더욱 정확해져

와이즈넛 로고

(서울=뉴스1) 장도민 기자 = 인공지능(AI) 기업 와이즈넛은 과학기술정보통신부가 주관하는 정보통신방송기술개발사업 중 정보통신기획평가원이 추진하는 '멀티모달 데이터 입력 기반 검색증강생성 기술 개발' 과제의 주관사로서 1차 연도 연구에 착수했다고 29일 밝혔다.

오는 27년까지 4년에 걸쳐 진행하는 연구는 실제 업무환경에서 융합해서 활용하는 멀티모달 데이터를 기반으로 초거대언어모델(LLM)의 구조적, 성능적 한계로 제기되는 △최신화된 정보 유지의 어려움 △할루시네이션 △도메인 정보 부족 △대규모 컴퓨팅 자원 소요 등의 한계를 극복하는 멀티모달 RAG 기술 개발을 목표로 한다.

멀티모달(Multi modal)은 인간이 사물의 양상을 다양한 감각기관으로 받아들이는 것처럼 텍스트, 이미지, 음성, 비디오 등 다양한 형태의 데이터 채널(Modality)을 동시에 처리하는 것을 뜻한다. 이는 텍스트와 함께 소리 데이터를 융합하고 이를 분석해 소리의 크기나 성격을 더 정확하게 이해하거나, 동영상에서 얼굴 이미지를 인식하고 음성 대화를 텍스트로 변환해 자동 자막을 생성하는 등 폭넓게 활용될 수 있는 만큼 새로운 대안으로 주목받는 기술이다.

와이즈넛은 이번 과제에서 멀티모달 데이터 수집 및 처리, 검색, 통합관리 기술 개발에 주력한다. 자체 보유하고 있는 LLM 기술 기반 검색증강생성(RAG) 기술을 적용해, 멀티모달 질의 이해 및 답변 생성 기술부터 LLM의 성능을 높이기 위한 언어모델 최신화 기술, 효율적인 데이터 학습 및 관리를 위한 RAG 데이터 파이프라인 기술, 도메인 실증까지 전반의 기술 개발을 총괄 수행한다.

본 과제는 연구개발에 이어 의료(전남대학교병원), 법률(앤쌤), 제조(JB주식회사), 미디어 광고(SBSi) 등 다양한 도메인에서의 실증을 통해, 각종 비즈니스 환경과 사용자 요구에 맞춘 현실 데이터로 검증하는 단계를 거칠 계획이다.

특히 그간 전통적인 제조 분야의 산업현장, 반도체 공정 등에서 멀티모달 RAG 기술에 대한 필요성이 꾸준히 제기되어 왔던 만큼, 본 기술을 반영하여 수요가 있는 다양한 분야에서 더욱 복잡하고 효율적인 작업을 수행할 수 있게 실증사업을 진행할 예정이며, 향후 더 많은 고객군을 대상으로 사업을 확대해 나갈 것으로 기대를 모으고 있다.

또한, 다양한 멀티모달 데이터 통합 처리를 통해 LLM의 데이터 이해 및 분석 역량을 향상하고 맞춤형 응답과 문제해결 능력을 함양할 수 있어, AI 서비스를 활용하는 고객의 사용자 경험 및 만족도를 대폭 향상할 전망이다.

와이즈넛 강용성 대표는 "향후 인공지능이 '인간처럼' 사고하고 상호작용하기 위해서는 멀티모달 RAG 기술은 필수적이다"며 "와이즈넛은 이번 연구에서 멀티모달 RAG 기술을 통해 AI 기술 수준을 한 단계 업그레이드하고, 혁신적인 비즈니스 모델을 선제적으로 창출하는 기술적 토대를 마련할 것"이라고 말했다.

jdm@news1.kr