요즘 주차장엔 자동번호판 인식으로 주차요금을 정산하는 시스템이 많다. 그런데 아직도 전기자동차의 녹색번호판을 제대로 인식하지 못하는 주차요금시스템들을 많이 만난다. 이들 제조회사는 길거리에 흘러넘치는 CCTV영상을 구해 자동차들의 번호판 학습을 거듭하면 어떤 상황이든 녹색번호판을 백발백중 정확히 인식해 낼 텐데 왜 이 정도밖에 못할까? 자동차등록번호는 개인정보보호위원회가 개인정보라 선언했다. 차량을 찍은 CCTV는 개인정보이므로 합법적으로 그 영상을 구할 수 없기 때문이다.
또 다른 스타트업은 길거리 범죄 상황을 식별해 응급조치를 해 주는 인공지능 CCTV를 개발하려고 한다. 이 스타트업에 학습데이터로 필요한 것은 길거리에 설치된 수많은 CCTV의 영상이다. 그런데 개인정보보호위원회는 CCTV에는 수많은 사람과 자동차 번호판이 담겨 있으므로 이는 개인정보라 결정했다. 영상 속에 찍힌 사람의 신분을 식별할 수 있든 없든, 자동차 번호판이 보이든 안 보이든 다른 정보와 결합하면 쉽게 그 사람의 신분과 자동차 소유주를 식별할 수 있다고 한다. 그러나 이 스타트업은 흘러넘치는 CCTV를 구할 수 없다. 등장인물이나 차량 소유자의 동의를 구해야 하기 때문이다. 그들의 동의를 구하려 해도 누군지 알 수 없어 찾아갈 수도 없는데도 말이다. 이렇게 구슬이 서 말이라도 꿰지를 못 하니 인공지능 창업이 활성화될 리 없고, 인공지능 엔지니어가 생길 리 없다.
인공지능 서비스는 사람과 사물을 정확히 식별하는 능력이 세계 빅테크들과 경쟁하는 관건이다. 그런데 개인정보보호위원회는 누군지 모를 사람이나, 소유자가 누군지 알 수 없는 자동차등록번호, 휴대폰 전화번호와 같은 일련번호가 담긴 데이터를 개인정보로 간주해 그 유통을 막아버렸다. 그럴 게 아니라 이런 데이터들은 일반적인 경우에는 비개인정보이고, 개인정보처리자가 그가 누군지 쉽게 알아낼 수 있는 맥락을 갖거나, 다른 정보를 합법적으로 구해 결합할 수 있는 권한을 가진 경우에만 개인정보라고 했어야 한다. 개인정보보호위원회가 그동안 게을리한 일은 '비식별정보가 어떤 경우에 개인정보라고 볼 수 있는지' 다양한 사례를 선언해 주는 일이다.
개인정보보호위원회가 사람과 연결점만 있으면 전부 특정 개인을 알아볼 수 있는 개인정보라 과대포장하는 바람에 인공지능의 핵심역량인 식별능력을 키워낼 길을 차단해 버린 결과는 참혹하다. 인공지능 스타트업은 찾아보기 힘들고, 대기업 네이버는 자사의 스노우 등 사진 필터 앱들이 중국의 센스타임 기술을 이용해 사람을 식별한 결과, 미국인들의 개인정보를 중국에 유출했다는 혐의로 미국에서 소송을 당하는 수모를 겪고 있다. 인공지능 스피커는 가족 목소리를 서로 구별해 내지 못한다. 이런 '깜깜이' 스피커가 개인화된 음성인식 금융서비스를 제공하였다가는 대규모 금융사고가 일어날 판이다.
그 자체로 누군지 모를 영상, 음성, 부호 들은 대부분 비개인정보이고, 맥락상 특정개인을 알아볼 수 있는 상황이나 누군지 추적할 권한을 가진 사람에게만 개인정보라고 과감히 선언하자. 그리고, 이들 비식별정보를 권한 없이 추적해 프로파일링하는 경우는 엄단하면 될 것이다. 과학기술정보통신부도 매년 3,000억 원씩 들여 인공지능 학습데이터를 개발해 공급하는 궁여지책을 멈추고, 개인정보 정의를 바로잡는 일에 동참하기 바란다.