"지도에 들어온 기분"…네이버의 AI 기술로 구현한 일상
공간지능 기술 접목한 거리뷰 3D…원근감·연속성 느낀다
미디어 AI 영상분석 'MAIU', 검색어 입력하면 그 장면 찾아준다
- 신은빈 기자
(서울=뉴스1) 신은빈 기자 = "지금까지 2차원(2D)으로 촬영한 평평한 이미지를 제공했다면, 이젠 3차원(3D)으로 지도를 구현해 현실에 있는 듯한 기분을 느낄 수 있다"
12일 서울 강남구 코엑스에서 열린 팀네이버 '단 24'(DAN 24) 콘퍼런스의 기술 전시회에서 네이버지도 부스 관계자는 이렇게 설명했다.
네이버지도는 네이버랩스의 공간지능 기술 '3D 스캐닝'을 장착한 장치 'P1'으로 현장을 촬영한 '거리뷰 3D' 서비스를 다음 달 출시한다. 건물을 3D 디지털 트윈(현실을 가상 공간에 복제) 형태로 구현해 지도 애플리케이션(앱)에서도 실제 길을 걷는 것처럼 원근감과 연속성을 느낄 수 있다.
건물 표면에 장소 정보도 표시해 준다. 건물을 클릭하면 입점 상가 수와 종류, 주차장 입구 위치 등을 한눈에 파악할 수 있다.
지금은 서울 마포, 여의도, 강남, 성수 등 사람이 많이 몰리는 일부 지역 위주로만 서비스를 준비 중이다. 서비스 제공 지역은 추후 전국 단위로 확대할 계획이다.
미디어 인공지능(AI)으로 영상을 분석하는 'MAIU'(Media AI Understanding) 서비스도 선보였다. 방송국과 엔터테인먼트사 등 기업을 대상으로 내년 초 출시 예정이다.
MAIU는 이미지의 유사도를 측정해 비슷한 샷(화면)끼리 묶어 하나의 신(장면)을 만든다. 특정 장면이 포함된 구간을 찾고 싶은 사용자가 키워드를 검색하면 분류된 신에서 해당 구간을 탐색한다.
탑재된 AI는 자체 학습 정보를 바탕으로 키워드와 화면을 매칭한다. 예를 들어 영상에서 수영하는 구간을 찾을 땐 'swimming'을 검색하면 된다. MAIU는 이 검색어가 '물속에서 사람들이 팔을 휘젓는 장면'을 뜻하는 점을 인지하고 맞는 구간을 찾아낸다.
MAIU는 이미지와 음성을 동시에 분석하는 멀티모달 모델이다. 다수의 발화자를 자동으로 구분해서 스크립트를 작성하고, 인물과 이름을 매칭해 다른 영상에 같은 인물이 나오면 인물 정보를 자동 추출한다.
이날 전시회에서는 네이버의 거대언어모델(LLM) '하이퍼클로바X'를 적용한 대화형 에이전트 '클로바X'도 시연했다.
시연은 비전(시각) 기능을 중심으로 △이미지 캡셔닝(묘사) △이미지 바탕 상황 추론 △인물·장소·상품 인식 △도형·그래프·수학 문제 풀이 △이미지 바탕 창의적 글쓰기의 5가지 분야에서 이뤄졌다.
클로바X 질문 입력창에 강아지 사진을 올리고 "견종을 알려줘"라고 입력하자, "몰티즈로 보인다"는 답변과 함께 "소형견으로 긴 흰색 털을 가졌다"며 특성까지 함께 설명해 줬다.
스트리밍 플랫폼 '치지직' 부스에서는 확장현실(XR) 기술로 구현된 몰입형 방송 스튜디오에서 아바타와 함께 사진을 찍을 수 있었다. 3D 웹 크리에이티브 플랫폼 'ZUMP' 부스는 웹으로 편리하게 접속할 수 있는 메타버스 안에서 영상을 공유하거나 실시간 회의를 진행하는 모습을 시연했다.
bean@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.