업스테이지 논문 2편, '자연어처리' 최고 학회서 채택

자연어 처리 분야 학회 'EMNLP 2023'의 홈페이지. (업스테이지 제공)
자연어 처리 분야 학회 'EMNLP 2023'의 홈페이지. (업스테이지 제공)

(서울=뉴스1) 윤주영 기자 = 인공지능(AI) 스타트업 업스테이지는 자사 논문 2편이 자연어처리(NLP) 분야의 권위 있는 학회인 'EMNLP 2023'에서 채택됐다고 23일 밝혔다.

해당 학회는 AI 번역과 챗봇, 기계 독해 등 데이터 기반 NLP 접근법을 다룬다. 12월6~10일 싱가포르에서 열리며 구글·애플·아마존·바이두 등 글로벌 AI 기업이 참여한다.

업스테이지의 논문은 한국어 관련 NLP 연구 성과다. 박찬준 업스테이지 선임 연구원과 임희석 고려대 교수가 협업했다.

첫 번째 논문은 한국어 음성인식 처리와 관련한 새로운 측정기준(벤치마크) 데이터 집합(데이터셋)을 구축한 것이다. 음성인식 모델의 약점을 정확히 분석하지 못하는 기존 평가 방법을 지적하며 새로운 평가 방법론을 제안한다.

두 번째 논문에서는 형태소라는 한국어의 특성을 살린 새로운 데이터 증강 기법을 제안한다.

데이터 증강 기법은 보유한 데이터셋을 여러 가지 방법으로 확대해 실질적인 학습 규모를 키우는 방식이다. 논문은 생성형 언어 모델이 같은 입력값으로도 자연스러운 문장을 생성하고 형태소 조합을 다양하게 변형해 데이터를 증강하는 방법론을 담았다.

김성훈 업스테이지 대표는 "지속적인 R&D 투자를 통한 연구 성과를 바탕으로 최고 성능의 AI를 누릴 수 있게 노력하겠다"고 했다.

지난해 학회에서는 총 3242편의 제출 논문 중 715편만 통과돼 22%의 채택률을 기록했다.

legomaster@news1.kr