잡다한 문서 스캔본, 구조화된 텍스트로 변환…도큐먼트 파스

"데이터 자산화해야 언어모델 운용 수월…분당 100장 처리 속도"

도큐먼트 파스 기능 모식도(업스테이지 제공)

(서울=뉴스1) 윤주영 기자 = 업스테이지는 다양한 형식의 이미지·텍스트를 기계가 읽을 수 있는 포맷으로 변환하는 차세대 OCR 모델 '도큐먼트 파스'(Document Parse)를 17일 공개했다.

기존 OCR 설루션으로 명확한 인식이 어려웠던 여러 열의 레이아웃이나 표(테이블) 등을 분석할 수 있다. 종이 문서가 HTML과 같은 구조화된 텍스트로 바뀌면 LLM 데이터로 활용될 수 있다.

기업의 데이터 자산화에 도움이 된단 의미다. 내부 데이터베이스(DB)와 외부 데이터를 반영해 사용자 질문에 답하는 검색증강생성(RAG), LLM 응답 정확도를 높일 수 있다.

회사는 설루션의 객관적 성능 지표로 문서 구조 분석 벤치마크인 'DP-Bench'도 함께 공개했다.

레이아웃 및 테이블 구조, 콘텐츠 분석 정확성 등 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS) 등 빅테크 5개사와 비교해도 5% 이상 높은 점수를 받았다. 1분에 100장을 처리하는 등 AWS 텍스트트랙트의 10배, 라마파스의 5배가량 되는 처리 속도를 보였다.

또 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종의 문서 처리뿐 아니라 수식 인식 및 이미지 추출과 같은 새로운 기능을 추가했다. HTML 외에도 헤더 및 테이블 요소를 마크다운(경량 마크업 언어) 형식으로 제공해 LLM 사용자가 입력 문서의 토큰(최소 데이터 단위) 크기를 줄일 수 있다.

회사는 보안이 필수적인 금융권 및 제조업 고객사에 OCR 서비스를 공급하고 있다. 향후 대규모 문서 디지털 전환이 예상되는 여타 산업에서도 설루션이 쓰일 것으로 기대한다.

legomaster@news1.kr