카카오브레인, 엑스레이 판독문서 병명 추출 '레이블러 프로젝트' 공개

자연어 판독문서 골절·흉막 병변·기흉 등 총 13가지 병명 추출
"타사 모델 대비 높은 90% 정확도"

(카카오브레인)

(서울=뉴스1) 조재현 기자 = 카카오브레인이 흉부 엑스레이 판독문에서 특정 병명을 추출하는 의료영상 판독 전문 '레이블러 프로젝트'를 이달 16일 오픈소스 공유 플랫폼 '깃허브'(Github)에 공개했다고 19일 밝혔다.

글머리 기호 형식 등 정리되지 않은 자연어로 작성된 판독문에서 특정 병명을 추출하는 연구개발 프로젝트다.

흉부 엑스레이 결과를 바탕으로 진단 가능한 병명 중 발병 빈도나 중요도가 높은 골절, 흉막 병변, 기흉 등 총 13가지 병명을 추출할 수 있다.

사용자가 자연어로 작성된 판독문을 입력하면 판독문 분석 후 13개 병명에 대한 양성/음성 여부를 알려주는 방식이다.

카카오브레인은 공개된 타사 모델보다 정확하고 효율적으로 특정 병명을 추출하는 레이블러 프로젝트 연구에 착수했다. 이 프로젝트는 카카오브레인의 흉부 엑스레이 초안 판독문 생성 기술의 내부 성능 검증 연구에도 활용된 바 있다.

카카오브레인이 실제 골절, 기흉, 폐부종 등 10개 병명을 대상으로 추출 정확도를 측정한 결과 타사 모델(약 76%)보다 높은 약 90%의 정확도를 기록했다.

카카오브레인은 레이블러 프로젝트 공개와 동시에 지난달 말 레이블러 학습법과 성능 비교 결과를 담은 논문 '대규모 언어 모델을 활용한 향상된 흉부 X선 판독문 라벨링'(CheX-GPT: Harnessing Large Language Models for Enhanced Chest X-ray Report Labeling)을 논문 공개 사이트 '아카이브'(arXiv)에 게재했다.

김일두 카카오브레인 각자 대표는 "연구자들이 카카오브레인의 레이블러 프로젝트를 테스트 벤치마크로 활용할 수 있도록 직접 제작한 테스트 셋을 공개할 예정"이라며 "자사 언어 모델을 활용하고 흉부 엑스레이 데이터를 추가로 학습시키는 등 레이블러 프로젝트의 성능을 더욱 높이겠다"고 했다.

cho84@news1.kr