9일 서울 강남구 논현동의 인공지능(AI) 오디오 기업 수퍼톤 사옥. 컴퓨터에 실시간 음성변환 서비스 '수퍼톤 시프트'(시프트)를 띄워 놓고 김희영 제품서비스실장(PM)이 마이크를 통해 목소리를 흘려넣었다. 그랬더니 '젊은 남성' 애니메이션 캐릭터의 목소리가 흘러나왔다.
3월 베타테스트를 시작한 시프트 이용자들은 나이 든 남성 '세드릭'이나 마왕을 떠올리게 하는 '몰크', 귀여운 여성 '코코'와 '다은' 등 10개의 캐릭터 중 하나를 골라 자신의 목소리 대신 말할 수 있다. 여기에 목소리 높낮이, 감정 표현 강도 등도 조절해 더 개성 있는 목소리를 찾아낼 수 있다.
시프트는 국내외 콘텐츠 크리에이터들 사이에서 화제다. 당초 6월 말까지 이용자 1만 명을 모으는 게 목표였는데 한국은 물론 일본에서도 입소문이 터지면서 한 달 반 만에 1만6,000여 명이 쓰고 있다. 거의 실시간으로 음성 변환을 할 수 있다는 점 때문에 가상의 캐릭터를 연기하는 '버추얼 유튜버'들에게 인기가 높다.
이교구 수퍼톤 대표는 이날 언론 인터뷰에서 "목소리를 공개하고 싶지 않거나 다양한 목소리 연기를 하고 싶은 크리에이터들이 시프트를 통해 자유롭게 콘텐츠를 만들 수 있다"고 설명했다. 그동안 본인의 실제 모습 대신 아바타를 걸고 연기하는 버추얼 유튜버라도 음성은 본인의 실제 목소리를 썼지만 시프트가 있으면 목소리를 바꿔 방송할 수 있다. 크리에이터 한 명이 여러 캐릭터를 바꿔가며 연기한 뒤 영상을 만들어 업로드할 수도 있다.
시프트의 강점은 자연스러운 목소리를 0.05초에 만든다는 점이다. 수퍼톤이 자체 개발한 음성합성 파운데이션 모델 낸시(NANSY·Neural Analysis & Synthesis)로 사용자 음성을 음색∙발음∙음고∙강세 등 4개 구성 요소로 빠르게 분석해 사용자와 캐릭터의 목소리를 실시간 바꾸는 방식을 적용한다.
허훈 수퍼톤 최고기술책임자(CTO)는 "기존 음성 변조와 달리 사람처럼 발화하는 것으로 느껴지는 목소리를 만들되 지연 시간이 짧아 실시간 방송에도 활용할 수 있다"고 설명했다. 그는 AI의 작업에 흔히 쓰이는 그래픽처리장치(GPU)를 사용하지 않고 수준 높은 결과물을 뽑아낸다는 점도 장점으로 꼽았다.
너무 '리얼한' 음성 변환이기에 최근 등장한 '딥보이스(딥러닝+보이스)' 범죄에 활용할 수 있다는 우려도 있다. 이 대표는 "실제 목소리를 학습해 목소리를 변환하는 기능은 제공할 수 없게 원천 봉쇄했다"고 밝혔다. 또 시프트를 통해 변환한 음성에는 오디오 워터마크 기술을 적용해 음성 변환의 실제 이용자가 누구인지 만들어진 시점은 언제인지도 알 수 있게 할 예정이다.
수퍼톤은 2020년 3월 서울대 융합과학기술대학원 음악오디오 연구실에서 개발한 기술을 발전시켜 스타트업으로 출범한 회사다. 2022년 하이브가 이 회사를 인수한 뒤 주로 방송·음악 분야에 AI 음성 기술을 제공하다 지난해 AI 잡음 제거 플러그인 '수퍼톤 클리어'를 내놓으며 일반 소비자들과 만나기 시작했다. 올해 하반기 완성 목표로 텍스트를 음성으로 읽어주는(TTS) 프로그램도 개발 중이다. 허 CTO는 "음성 기술을 활용해 다양한 제품과 서비스를 내놓을 것"이라고 밝혔다.