엔씨, 한국어 특화 언어모델 공개…콘텐츠 제작 시간 단축

단일 모델만으로 이미지-텍스트·텍스트 전용 작업 처리
한국어 AI 모델 연구 돕는 벤치마크 5종도 공개

(엔씨소프트 제공)

(서울=뉴스1) 신은빈 기자 = 엔씨소프트(036570)가 한국어에 특화된 시각언어모델(VLM)과 이 연구를 도울 벤치마크(표준)를 공개했다. 한국어 텍스트를 활용하는 콘텐츠 제작자들은 제작 시간을 아끼고 업무에 도움을 받을 수 있게 됐다.

엔씨는 중소형 오픈소스 시각언어모델(VLM) 'VARCO-VISION'과 한국어 멀티모달 벤치마크를 4일 공개했다.

VARCO-VISION은 한국어, 영어 프롬프트(명령어)와 함께 이미지 입력값을 이해할 수 있는 중소형 모델이다. 현재 오픈소스로 공개된 대부분의 VLM은 영어와 중국어 기반이며, 한국어 지원 모델은 소수에 불과하다.

VARCO-VISION은 거대언어모델(LLM)과 유사한 수준의 언어 능력을 보유했다. 애플리케이션(앱)에서 LLM과 VLM 2개 모델을 운용하지 않고 단일 모델만으로 이미지-텍스트 작업과 텍스트 전용 작업을 모두 처리할 수 있을 전망이다.

한국어 부문에서는 동종 크기 모델 중 성능이 1위다. 이미지를 인식하고 추론하는 비전 태스크(시각적 업무)에서도 뛰어난 결괏값을 제공한다.

이 모델을 활용하면 이미지 인식과 질의응답, 이미지 설명, 글자 인식(OCR), 사물 위치 검출(그라운딩) 기능을 통해 각종 멀티모달 인공지능(AI) 서비스를 개발할 수 있다.

콘텐츠 제작 기업이라면 이미지 상세 설명을 자동 생성해 콘텐츠 제작 시간을 아낄 수 있다. 이미지 내 텍스트 인식 기능으로 많은 자료를 수집하는 등 기획 업무에 도움도 받을 수 있다.

엔씨소프트의 비전언어모델 'VARCO-VISION' 작동 원리 (엔씨소프트 제공)

한국어 AI 모델 연구 발전을 도울 벤치마크 5종도 공개했다. 언어모델의 성능을 평가하려면 수행 능력 판별의 기준점이 되는 벤치마크가 필요하다. 한국어는 멀티모달 벤치마크가 거의 없어서 올바른 성능 평가가 어려웠다.

엔씨는 영미권에서 주로 사용되는 객관식 벤치마크 3종(MMBench, SEED-Bench, MMStar)과 주관식 벤치마크 1종(LLava-in-the-wild)을 기반으로 새로운 한국어 벤치마크 4종을 구축했다.

여기에 한국어 문서, 표, 차트 이해 능력을 검증할 수 있는 'K-DTCBeanch' 벤치마크 1종을 새롭게 더했다.

이연수 엔씨 리서치 본부장은 "VLM의 접목 분야를 오디오, 비디오까지 확대하고 콘텐츠 제작 지원 기능을 강화하겠다"고 말했다.

bean@news1.kr