생성 인공지능(AI)이 학습하는 데이터 안에 25년 전 공개를 금지한 아동 포르노 사진이 포함됐다고 일본 요미우리신문이 21일 보도했다. 그러나 지금 기술로는 이러한 유해 이미지를 완전히 걸러내지 못하는 상황이다. AI가 아동 포르노를 학습하지 못하도록 서둘러 기술을 보완하고, 개발사들이 수습에 나서야 한다는 지적이 나온다.
요미우리에 따르면 유명한 생성 AI인 '스테이블디퓨전'이 학습하는 데이터세트(데이터 집합체)에 일본 국립국회도서관이 열람을 금지한 아동 포르노 사진집이 포함돼 있었다. 독일 뮌헨대 기술로 영국 스타트업 '스태빌리티AI'가 만든 스테이블디퓨전은 문장이나 단어를 입력하면 이에 맞는 그림이나 사진 등 이미지를 생성하는 AI로 유명하다.
문제의 사진집은 나체 상태의 소녀들을 촬영한 것으로 1993년 출판됐다. 일본은 1999년에야 아동을 성적 대상으로 촬영한 사진을 공개하지 못하게 하는 '아동 매춘·포르노 금지법'을 제정했고, 일본 국회도서관은 2006년 '아동 포르노에 해당할 소지가 있다'며 이 사진집에 대한 열람을 금지했다. 그러나 스테이블디퓨전의 학습 데이터세트에는 해당 사진집 외에도 아동의 나체 사진이 다수 포함돼 있었다.
이 데이터세트는 기계학습을 위한 데이터를 무상으로 제공하는 독일 비영리 네트워크인 '라이온(LAION)'이 공개한 것으로, 58억5,000만 개의 이미지가 들어있다. 온라인상의 방대한 자료를 무차별적으로 수집하다 발생한 문제다. 미국 스탠퍼드대 인터넷관측소(SIO)는 지난해 12월 라이온의 데이터세트에서 아동을 성적 대상으로 한 이미지 1,008개와 의심 소지가 있는 이미지 3,226개를 발견했다고 발표한 바 있다.
생성 AI는 학습 내용을 바탕으로 이미 유해 콘텐츠를 생산하고 있다. 최고 수준의 기술을 보유한 글로벌 기업도 예외는 아니다. 미국 월스트리트저널은 지난 6일 마이크로소프트(MS)의 한 AI 기술자가 자사의 생성 AI가 성적 묘사를 담은 유해 콘텐츠를 생산한다는 내용을 회사에 보고했다고 보도한 바 있다.
전문가들은 기술 보완과 함께 AI 업체들이 사회적 책임을 져야 한다고 지적한다. 데이터세트를 사용할 때 유해 이미지를 거르는 '필터 기능'이 있지만, 제대로 작동하지 않아 이 같은 문제가 발생하기 때문이다. 기시모토 아쓰오 오사카대 사회기술공창연구센터장은 요미우리에 "학습 데이터에 아동 포르노가 포함되면 피해자 인권을 침해할 수 있다"며 "개발업체들은 대책을 강구하고, 어떤 데이터를 학습했는지 공개해야 한다"고 말했다.
요미우리는 "스태빌리티AI에 '유해 이미지를 완벽하게 걸러내지 못했을 가능성에' 대해 물었지만 답은 오지 않았다"며 "스테이블디퓨전 외에도 생성 AI가 많지만 (개발사들은) 어떤 데이터를 학습하는지 밝히지 않고 있다"고 짚었다.