인공지능은 개인정보를 먹고 성장한다

입력
2022.02.03 19:00
25면

편집자주

가속화한 인공지능 시대. 인간 모두를 위한, 인류 모두를 위한 AI를 만드는 방법은? AI 신기술과 그 이면의 문제들, 그리고 이를 해결할 방법과 Good AI의 필요충분조건

지난해 11월에 있었던 일이다. 법무부가 출입국 심사에 활용할 AI 식별, 추적시스템을 개발하는 과정에서 1억7,000만 건의 안면 이미지 정보를 AI 개발업체에 제공해 논란이 됐다. 오늘은 인공지능 윤리의 5대 문제(편향성, 오류와 안전성, 악용, 개인정보보호, 킬러로봇) 중 이와 관련한 '개인정보보호' 문제를 이야기해 보고자 한다.

우리가 인공지능을 이용하기 위해서는 인공지능을 똑똑하게 만들어야 한다. 인공지능을 똑똑하게 만들기 위해서는 인공지능에 학습을 시켜야 한다. 모두가 알다시피 인공지능의 학습을 위해 반드시 필요한 것이 바로 데이터다. 그중 '개인정보'는 AI 학습에 매우 유용하고 필수적인 데이터다. 특히 해당 AI의 제품과 서비스의 개발 목적이 사용자에게 맞춤형 정보, 추천서비스를 제공하거나 사용자의 분석에 관한 서비스일 경우, 학습을 위한 데이터 중 '개인정보'는 주된 데이터가 된다.

하지만 이러한 개인정보와 개인의 데이터는 인간의 인격권과 자유에 관한 기본적인 권리이기 때문에 절대 함부로 침해돼서는 안 된다. 모든 민주주의 국가에서는 개인정보 보호권과 프라이버시권을 법으로 엄격하게 보호하고 있다. 그렇기 때문에 AI의 학습과 개발을 위해 개인정보를 활용할 경우에는, 미리 해당 개인에게 명확하고 상세한 설명과 고지를 하고 동의를 구하여야 한다. 그런 이후에도 학습된 개인정보가 외부에 유출되지 않도록 철저히 보안하고, 서비스 내에서는 익명화, 비식별화 조치하여 결코 외부에서 알아보지 못하게 해야 한다.

하지만 지난해 법무부의 경우에는 AI 학습을 위해 '얼굴'이라는 대표적인 개인정보를 활용함에도, 해당 개인들에게 명확한 설명을 하고 동의를 받지 않았기에 논란이 된 것이다. 작년 초 우리나라에서 AI윤리 논란을 촉발시킨 'AI 챗봇 이루다 사례'에서도, AI 챗봇의 학습 과정에 활용된 개인들의 SNS 대화 데이터를 사용자들에게 명확히 고지나 동의를 받지 않고 사용한 것이 가장 큰 문제가 되었다.

또 하나 AI의 개인정보보호 문제가 가장 빈번히 제기되고 있는 분야가 바로 AI 스피커 분야이다. 2020년 7월 미국 클렘슨대학교가 현재 시판 중인 AI 스피커들과 서비스 제공회사들의 약관을 조사한 결과, 대다수의 AI 스피커 제공회사들이 사용자에게 자세한 고지나 동의를 구하지 않고 음성데이터와 개인정보들을 수집했으며, 동의를 받은 경우에도 사용자들에게 관련 내용을 개괄적으로 설명하지 않았다고 밝힌 바 있다. 또한 그렇게 수집한 사용자의 이름, 이메일, 생일, 성별, 위치정보, 연락처 등의 민감한 개인정보를 당사자에 알리지 않고 제3자에게도 제공하고 활용했다고 밝혔는데, 이러한 기업에는 현재 AI 산업을 선도하고 있는 글로벌 기업들도 다수 포함돼 있어 충격을 주었다.

그렇다면 AI 스피커 제공회사들이 이렇게 사용자들의 음성데이터와 개인정보를 수집하는 이유는 무엇일까? 바로 AI 스피커의 음성인식률을 높이고 사용자에게 맞춤형 정보를 제공하는 등의 편의성을 높이기 위해서다.

대다수의 AI 스피커 제공회사들이 이와 같은 목적으로 사용자의 음성데이터와 개인정보를 수집해 왔는데, 문제는 클렘슨대의 조사처럼 사용자에게 명확한 고지나 동의를 받지 않고 수집하고, 개인정보를 수년간 보관하면서 외부 유출 문제나 프라이버시 침해 사례들이 지속적으로 발생하고 있다는 점이다.

다음 칼럼에서는 보다 구체적인 국내외 AI 스피커 사례들을 살펴보면서 무엇이 왜 문제인지, 그리고 이를 통해 AI의 개인정보보호 문제를 우리가 어떻게 해결해 나가야 하는지를 함께 고민해 보도록 하겠다.



전창배 한국인공지능윤리협회 이사장·㈜아이오냅 대표