인종차별 품은 언어모델?…"문화·맥락 이해한 소버린AI 절실"

[NTF 2024] "빅테크 AI, 비영어권 유저에 잘못된 정보 줄 수 있어"

정주환 네이버클라우드 AI 테크 석세스가 19일 오전 서울 여의도 한국거래소 컨퍼런스홀에서 'AI 패권전쟁, 한국 생존전략' 주제로 열린 2024 뉴스1 테크포럼(NTF)에서 발표를 하고 있다. 제1회 뉴스1 테크포럼은 AI 패권 경쟁 속 우리 미래를 윤택하게 만들 AI 기술과 한국이 가야할 방향을 모색한다. 2024.6.19/뉴스1 ⓒ News1 이재명 기자

(서울=뉴스1) 윤주영 기자 = "챗GPT에게 동해가 맞는지 일본해가 맞는지 물어봤습니다. 선호에 따라서 혼용된다는 답변이 나왔습니다"

정주환 네이버클라우드 이사가 최근 영어 기반 대형언어모델(LLM)을 경험한 내용이다. 우리 문화에 기반하지 않은 LLM이 사용자(유저)에게 혼란을 주는 정보를 출력할 수 있단 걸 보여준다.

19일 서울 영등포구 한국거래소 콘퍼런스홀서 열린 '뉴스1 제1회 테크포럼'[NTF 2024]에 참석한 그는 '소버린 인공지능(AI)'의 중요성을 강조했다.

소버린 AI는 한 국가가 자체 인프라·데이터·인력·네트워크를 활용해 AI를 구축하는 것이다. 챗GPT, 라마 등 '영어 문화권' 기반 범용 AI(AGI)가 글로벌 영향력을 확대하자 그 반대급부로 강조되기 시작했다.

영어권 AGI는 비교적 타 문화권의 데이터를 충분히 학습하지 못했기 때문이다. 이 경우 환각, 편향된 답변뿐 아니라 해당 문화권 사용자를 차별하는 답변까지 출력한다.

정 이사는 "저연령 유저가 잘못된 정보를 수용하거나 이를 학습활동 등에 활용한다는 위험이 있다"고 우려했다.

그는 또 다른 예시로 2021년 스탠퍼드대 연구진이 '아카이브'(arXiv)서 발표한 'LLM서 발견되는 지속적인 안티-무슬림' 논문을 소개하기도 했다. GPT3 모델이 답변을 통해 이슬람 신도를 부정적으로 묘사한다는 내용이 공유됐다.

정 이사는 "빅테크 리더라도 결국 그들이 가진 데이터는 영어 데이터 위주"라며 "미국인이 무슬림에 가진 편향적 시각이 답변서 드러나게 되는 것"이라고 분석했다.

(네이버클라우드 제공)

이런 LLM의 부적절한 콘텐츠 생성으로부터 유저를 보호하는 것이 앞으로의 과제란 분석이다. 정 석세스는 관련해서 회사의 노력을 소개하기도 했다.

대형언어모델 '하이퍼클로바X'를 개발한 네이버(035420)는 나름의 생성형 AI 윤리를 세우고 이를 서비스 개발에 반영하고 있다. 대표적으로 혐오 표현·유해 콘텐츠·개인정보 보호 등을 다루는 '안전성' 기준이 있다. 또 잘못된 정보, 전문 영역 상담이 필요한지 등을 가리는 '정확성' 기준이 있다.

또 하이퍼클로바X가 사회적 고정관념, 편견, 차별적 발화를 하지 못하게끔 설계했다. 한국 사회 내 다양한 집단을 폭넓게 고려한 답변을 출력하도록 했다.

정 이사는 "성 정체성, 세대, 외모, 장애 등 세계 인권선언서 다뤄진 안전 AI 기준에 더해 국가인권위원회에서 제시한 관련 기준을 반영했다"고 부연했다

legomaster@news1.kr