음란물서 익숙한 목소리 "나잖아?"…음성까지 퍼진 성범죄 '딥보이스'

게임 성우 목소리 도용해 음란 콘텐츠 만들기도
1분 이내 음성 파일로도 도용 가능

ⓒ News1 윤주희 디자이너

(서울=뉴스1) 김승준 기자 = 타인의 사진을 도용해 인공지능(AI) 기술로 음란물을 만드는 딥페이크 성범죄가 기승을 부리면서 목소리를 도용하는 범죄 우려도 커지고 있다.

2일 업계에 따르면 AI 음성 합성 기술을 이용한 사기, 동의 없는 성인 콘텐츠 제작 등 범죄가 일어나고 있다.

딥보이스(Deep Voice)는 딥러닝(Deep Learning)과 목소리(Voice)의 합성어로 AI 기술 기반 음성 합성을 말한다.

유튜브 등지에서 쉽게 볼 수 있는 'AI 커버' 영상의 다수에는 딥보이스 기술이 쓰였다. AI 커버는 브루노 마스가 부른 뉴진스의 하입보이처럼 사람의 목소리를 AI에 학습시켜 특정 노래를 부른 것처럼 만든 콘텐츠다.

딥보이스는 딥러닝 기술이 발전하며 점차 더 적은 양의 목소리 샘플만 가지고도 높은 수준으로 합성할 수 있게 고도화됐다.

현재 상용화된 해외 서비스의 경우 1분 정도의 고품질 음성 파일만 있어도 원하는 문장을 읽도록 만들어 주기도 한다.

보안업체 맥아피가 내부 연구소에서 시도한 결과 3초 정도의 음성 파일로 일치율 85%의 음성 생성이 가능했다.

문제는 전화나 소셜미디어(SNS) 영상에서 타인의 목소리를 탈취해서도 음성 합성이 가능하다는 점이다.

2023년 게임 업계에서는 딥보이스를 사용해 성우의 목소리로 음란 콘텐츠를 만든 사례가 폭로되기도 했다.

게임 '엘더스크롤5 스카이림'은 발매된 게임을 변형해서 이용자들이 원하는 게임 콘텐츠를 만들 수 있는 '모드' 문화가 활발하다. 성인용 모드 제작자들이 게임내 성우의 목소리를 추출해 노골적인 성적 묘사가 들어간 대사를 읽는 음성 파일을 만들었다. 이 폭로 후 미국 성우 협회는 저작권을 게임 제작사의 적극적인 대응을 촉구했다.

딥보이스 기술 범죄는 동의 없는 성적 콘텐츠 제작뿐 아니라 보이스 피싱에서도 활용되고 있다.

경찰청은 5월 홍보자료를 통해 "딥보이스는 억양과 호흡, 침묵까지 표현할 수 있어 실제 음성과 구분이 어려워지고 있다고 한다"며 "SNS에 음성이 포함된 게시물을 올릴 때는 주의하고 (전화로 오는) 의심스러운 요청은 반드시 사실 여부를 확인해야 한다"고 당부하기도 했다.

보안 업계에서는 이러한 딥보이스 보이스 피싱에 대응하는 방안으로 신뢰할 수 있는 사람들끼리 미리 특정 단어를 정하고 무언가를 요청할 때 활용할 것을 조언하기도 한다.

정부도 '보이스피싱·불법사금융 척결 합동 태스크포스'에서 딥보이스 피해 방지 정책을 논의하는 등 대응에 나선 상태다.

seungjun241@news1.kr