지난해 카타르 월드컵에서 공개된 대한민국 축구 국가대표팀 공식 응원곡 '더 뜨겁게, 한국'에는 고인이 된 유상철 감독의 내레이션이 포함돼 화제가 됐다. 어떻게 유 감독이 국가 대표팀을 응원할 수 있었을까. 이는 KT와 AI 음성합성 스타트업 휴멜로가 협업해 만든 'AI 보이스' 덕분이었다.
생성AI 시장에서 음성 분야도 텍스트 생성만큼이나 관심이 뜨겁다. 유명인의 목소리를 AI로 만들어 마케팅에 활용하거나 대중의 취향을 반영한 가상의 목소리를 구현해 콘텐츠를 만드는 등 활용 가능성이 무궁무진하기 때문이다.
지난달 12일 서울 마포구 밀리의 서재 사옥에서 만난 이홍철 KT AI·빅데이터 기획담당 상무는 "고인이 생전에 한 인터뷰 영상이 없어서 과거에 찍었던 다큐멘터리 속 3분짜리 음성을 추출해서 AI에 공부시켰다"며 "하루 만에 고인의 실제 목소리와 구별하기 어려울 정도의 실감나는 소리를 만들 수 있었다"고 말했다.
그동안 가상의 보이스는 ARS 기계음처럼 누가 봐도 인간의 목소리가 아니라는 것을 알 수 있었다. 하지만 최근 퓨샷러닝(few-shot learning)이란 새로운 AI 연구 방법이 등장하면서 음성 합성 기술도 빠르게 진화했다. 퓨샷러닝은 AI가 적은 양의 데이터 자원만 학습해도 스스로 일반화해 새로운 데이터를 만들어내는 기술이다. 기존에는 연구자가 수많은 데이터를 일일이 나누고, 특징별로 주석을 달아 AI를 공부시켜야 했다.
KT가 지난해 11월 출시한 '마이 AI보이스'도 퓨샷러닝이 적용됐다. 이 서비스는 30개 예시 문장만 녹음하면 내 목소리와 닮은 AI 보이스를 만들어 준다. 핵심 기술을 개발한 이자룡 휴멜로 대표는 "기존에는 한두 시간 녹음해야 AI 보이스를 만들 수 있었는데 지금은 2, 3분 정도 녹음하면 가능하다"며 "음성의 자연스러움을 평가하는 척도에서도 세계 최고 수준"이라고 자신했다.
KT는 이 기술을 자회사 밀리의 서재가 만드는 오디오북에 적용하고 있다. 김태형 본부장은 "성우나 유명인을 섭외하고 책 한 권을 녹음하는 데 길게는 한 달이 걸렸는데 AI 보이스로는 몇 분 만에 가능해졌고 비용도 10분의 1로 줄었다"고 말했다. 밀리의 서재는 부모의 목소리를 본떠 제작한 AI 보이스가 자녀에게 동화책을 읽어주는 콘텐츠도 기획하고 있다.
AI 보이스는 언어의 벽도 뛰어넘는다. 중국어나 스페인어를 전혀 못하는 사람도 AI 보이스를 만들어 원어민처럼 말할 수 있다. 이 대표는 "영어를 못하는 사람은 영어 텍스트를 한국식으로 읽지만 AI 보이스는 원어민처럼 유창하게 읽을 수 있다"며 "한국어로 2분만 녹음하면 영어, 스페인어를 자연스럽게 구현이 가능하다"고 말했다. KT의 서비스는 현재 한국어, 중국어, 일본어, 영어, 스페인어 등 5개 언어를 지원한다.
다만 아직까지 AI 보이스는 감정을 담은 말하기에선 한계가 있다. 이에 밀리의 서재도 소설의 경우 기존처럼 성우를 통해 오디오북을 제작하고, AI 보이스는 경제·경영 등 정보 전달성 콘텐츠에 먼저 적용하고 있다.
AI 보이스가 보이스피싱 같은 범죄에 활용될 수 있다는 우려도 나온다. 이 대표는 "이런 문제를 방지하기 위해 목소리를 학습할 때 처음부터 회사가 제시한 30개의 문장을 입력하도록 제한한 것"이라며 "AI 보이스라는 것을 알 수 있는 워터마크를 심는 기술도 개발했다"고 말했다.
KT는 휴멜로와 같은 생성 AI 업체들과 제휴 범위를 넓혀 인간처럼 말하고, 생각하고, 행동하는 디지털 휴먼 개발에도 도전하고 있다. 이 상무는 "휴멜로의 보이스와 KT의 챗봇 기술에 외형만 붙이면 디지털 휴먼이 된다"며 "이질감 없이 발화에 따라 움직이는 입을 만드는 것이 어려워 이를 잘하는 회사를 찾고 있다"고 말했다.