KAIST, 공개형 멀티모달 대형언어모델 개발·출시

MoAI 멀티모달 대형언어모델 성능.(KAIST 제공)/뉴스1
MoAI 멀티모달 대형언어모델 성능.(KAIST 제공)/뉴스1

(대전=뉴스1) 김태진 기자 = 국내 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로를 뛰어넘는 멀티모달 대형언어모델을 개발해 주목된다.

한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 두 가지 기술을 잇달아 개발했다.

콜라보는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능 대비 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.

모아이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다.

KAIST 전기및전자공학부 노용만 교수

노용만 교수는 “연구팀이 개발한 공개형 대형언어모델로 출시했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.

KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여한 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.

memory4444444@news1.kr