올해 초 우리 사회에 큰 파장을 던졌던 AI윤리 사건을 기억할 것이다. 그동안 우리나라에는 심각한 AI윤리 문제가 일어난 적이 없었는데, 올해 초 한 AI기업이 출시한 ‘AI챗봇’으로부터 무려 3가지의 인공지능 윤리 문제가 동시다발적으로 발생했다. 인공지능 윤리의 5대 문제 중 AI편향성, AI악용, 개인정보보호 문제가 동시에 일어난 것이다. 이 중 해당 AI챗봇이 사용자와의 대화 중에 성소수자, 장애인, 임산부, 흑인 등 특정 계층에 대해 편향적 언급, 혐오 발언을 하면서 사회적으로 큰 이슈가 되었다.
인공지능의 편향성 문제는 왜 중요하고 무엇이 문제일까? 인간은 성능 수준과는 상관없이, 그 AI가 인간과 유사한 외모를 갖고 유사한 말과 행동을 하면 감정이입을 하고 의인화하는 경향이 있다.
스무 살 여대생으로 설정된 AI챗봇도 인간과 구별할 수 없을 정도로 매우 뛰어난 대화 능력을 보여주었다. 사용자들은 이러한 AI와 대화를 하면서 부지불식간에 AI가 아니라 인간으로 감정이입을 하고 의식하게 된다. 특히 AI의 인간 유사성 정도가 뛰어날수록 해당 AI는 사고와 말과 행동 등 모든 면이 인간보다 완벽하다고 받아들여진다.
따라서 이렇게 완벽한 존재가 혐오와 차별, 편향의 발언을 하면 사용자들은 그런 생각을 무의식적으로 수용할 수 있다. 특히 인성과 이성이 미성숙한 어린이, 청소년들은 그러한 영향에 더욱 쉽게 노출된다. 결국 인간이 AI를 편견과 혐오, 편향을 갖도록 잘못 가르치면, 그렇게 배운 AI가 다시 돌아와 인간에게 편견, 혐오와 편향을 심을 수 있는 것이다.
편향성 문제는 AI의 악용 문제와 더불어 전 세계적으로 가장 많이 일어나고 있는 AI 윤리 문제다. 2015년에 구글포토 서비스에서 흑인 여성 사진을 고릴라로 인식한 사건은 아주 유명하다. 이 사건은 인공지능의 안면인식 오류율 차이 때문인데, 인종별, 성별 안면인식 오류율에서 백인 남성은 1%, 백인 여성 7%, 흑인 남성 12%, 흑인 여성은 35%로 큰 차이를 보이고 있다.
왜 이렇게 AI의 안면인식 오류율에서 차이가 발생할까? 그것은 전 세계 온라인상에 현존하는 사진 데이터의 양에서 인종과 성별에 따라 차이가 발생하기 때문이다. 백인 남성의 사진 데이터 개수가 흑인 여성의 사진 데이터 개수보다 훨씬 많기 때문에, AI를 정확하게 학습시키기 위한 데이터 양이 이러한 인식 오류율의 차이를 일으키는 것이다. 이런 사실로 미루어볼 때 아마 한국 등 아시아인의 안면인식 오류율도 결코 낮지는 않을 것이다.
2016년 마이크로소프트사의 챗봇 ‘Tay’ 사건은 너무나 유명해 간단하게 예를 들고 넘어가겠다. 챗봇 Tay는 트위터로 대화하면서 사용자들로부터 실시간으로 학습하는 방식의 AI챗봇이었는데, 사용자들로부터 인종차별과 욕설을 배워 결국 하루도 안 돼 서비스가 중단된 사건이다.
국내 AI챗봇 사례, 구글포토 사례, 챗봇 Tay 사례 등 모두 공통점은, AI에 학습의 기반이 된 데이터가 잘못되었다는 점이다. AI는 성능을 향상시키고 정확한 결과를 내기 위해서 빅데이터를 통한 학습이 필요한데, 데이터 자체가 편향되고, 불법적이며, 신뢰할 수 없다면 결국 그렇게 학습한 해당 AI와 서비스는 제대로 구현될 수 없을 것이다.
결론적으로 인간이 AI에 학습을 시킬 때에는 빅데이터를 사전에 충분히 검토하고, 선별하고, 정제하고, 모니터링하는 과정을 거쳐야 한다. 하지만 이러한 과정은 가장 기본적인 조치다. 다음 번 칼럼에서는 AI 편향성 해결을 위한 보다 근본적인 두 번째 방안을 찾아보도록 하자.