"AI 학습·공익서비스 개발" 빅데이터…가명처리로 안전하게 사용

전세계 데이터 75% '개인정보'…"규제 막혀 버려져선 안돼"
데이터 '마스킹·대체' 가명정보…"기관간 결합해 시너지"

가명 정보끼리 결합하면 데이터에 근거한 공공서비스 개발도 가능하다. 복지 사각지대 위험군을 추적하는 데 쓰일 수 있다.(한국인터넷진흥원 제공)

(서울=뉴스1) 윤주영 기자 = 인공지능(AI)을 고도화하는 학습 데이터엔 개인 민감정보가 들어있어 자칫 개인정보보호법을 침해할 소지가 있다. 정부는 이를 막으면서도 기술 고도화 토대를 마련하고자 개인정보 일부를 대체·마스킹한 '가명 정보' 이용을 확대한다는 구상이다.

3일 글로벌 시장조사기관 IDC에 따르면 내년 전 세계 연간 데이터 생산량은 181제타바이트(약 200조 기가바이트)에 달하는데 그중 75%가량이 개인정보다.

개인정보는 기본적으로 정보 주체의 동의를 받아야 활용할 수 있는데 빅데이터 단위에선 일일이 동의받기가 불가능하다.

이를 해결하고자 2020년 데이터 3법이 시행되며 가명 정보 활용 근거가 마련됐다. 통계작성, 과학적 연구, 공익적 기록보존 등이 목적이라면 제3자는 동의 없이도 개인정보를 가명 처리 후 활용할 수 있다.

김정주 한국인터넷진흥원(KISA) AI프라이버시팀장은 "소중한 빅데이터가 개인정보라는 이유로 활용되지 못한다는 안타까운 현실이 있었으나 2021년 가명 정보 처리 가이드라인도 만들어져 이를 해소할 길이 열렸다"며 "디지털 전략 성패는 가치가 높은 정보를 얼마나 잘 활용하느냐가 핵심"이라고 말했다.

가명 정보끼리 결합하면 데이터에 근거한 공공서비스 개발도 가능하다. 복지 사각지대 위험군을 추적하거나 지역화폐 이용 실태를 조사하는 등 사업이 이뤄졌다.

일례로 지난해 청소년정책연구원에서는 아동권리보장원·사회보장정보원 양 기관의 인적 데이터를 가명처리 후 결합했다. 자립준비 청소년 '홍○○'에 시설 퇴소일·자살 충동 지수·건강지수·심리상담 여부 등 정보가 태깅돼 활용되는 식이다.

이런 결합한 가명정보 데이터베이스가 충분히 커지면 AI 학습에도 투입될 수 있다. 건강보험심사평가원에선 진료명세서, 진료 내역 등 정보를 결합해 아동 응급실 방문을 예측하는 모델을 개발할 것을 제안하기도 했다.

다만 가명정보 처리는 그림·영상 등의 비정형 데이터에는 완벽한 적용이 어렵다. 또 가명정보 처리를 많이 할수록 데이터 학습 효과가 떨어진다는 단점이 있다.

이를 보완하고자 KISA와 개인정보보호위원회는 올해 '개인정보 안심구역' 시범운영을 추진 중이다. 제로트러스트 조치 등이 취해진 특정 환경서는 낮은 수준의 가명처리 정보라도 활용을 허용한다는 게 골자다.

지난해 12월 통계청과 국립암센터가 시범기관으로 선정됐다. 개보위에선 지난달부터 추가 공모도 받고 있다.

김 팀장은 "성공률 98%의 영상 가명처리 설루션이 있다지만 단 2%의 실패가 발생해도 기본적으론 활용이 불가능하다"며 "사람이 일일이 전수조사로 살피기 어려운 폐쇄회로(CC)TV 데이터 등을 개인정보 안심구역에선 샘플링 검사만으로도 활용할 수 있다"고 말했다.

이어 "가명 정보 재사용이나 활용 기한 연장도 이 구역에선 가능하다"고 부연했다.

legomaster@news1.kr