"눈이 어두워서 (농인인) 딸이 문자를 보내도 잘 볼 수가 없어, 딸이 밖에서 연락하면 손녀가 중간 메신저가 돼야 했습니다. 그런데 이 앱을 사용하면서는 딸과 직접 대화할 수 있어 너무 편리합니다. 딸 목소리를 들으니 너무 좋고요."
청력을 잃었거나 사고나 질병 등으로 후천적으로 목소리를 잃은 농인의 목소리가 인공지능(AI)을 만나 가족 품으로 돌아왔다. KT는 '목소리 찾기' 프로젝트를 통해 '세상에 하나뿐인 목소리'를 참가자들에게 전달했다고 26일 밝혔다. KT는 올해 4월 참가자 20명을 선발하고 가족들의 도움을 받아 농인 목소리를 구현해냈다.
KT는 국내 최고 수준 개인화 음성합성기술(P-TTS)을 활용해 이들에게 도움을 줬다. P-TTS는 딥러닝 기반 학습을 통해 사람의 목소리를 만드는 기술이다. 기존에는 본인 목소리 녹음을 기반으로 목소리를 만들어냈지만, 이번에는 국내 최초로 본인 목소리 학습 데이터 없이 목소리를 구현해냈다. 참가자 동성 가족의 음성 데이터에 성별과 나이, 구강구조 등 개인의 특성을 AI 엔진으로 분석해 적용했다. 가족들은 이 작업을 위해 1인당 평균 6시간 동안 1,000문장을 녹음했다.
과정이 수월했던 것만은 아니다. 구강 구조가 유사한 형제·자매가 녹음을 진행한 경우 목소리 값의 오차가 적어 비교적 수월했으나, 부모님이 목소리를 녹음한 경우 새로운 목소리와 구강구조의 오차가 커 새로운 모델링을 진행해야 하는 경우가 많았다. 나이에 따른 억양 차이도 보정이 필요했다.
이렇게 탄생한 새 목소리는 KT가 만든 전용 모바일 앱 '마음 톡'을 통해서 이용할 수 있게 됐다. 마음 톡은 참가자와 가족, 지인들만 이용할 수 있는 서비스로, 농인이 앱에 입력한 텍스트를 만들어진 각각의 목소리로 바꿔 상대와 통화할 수 있도록 해준다. 텍스트가 KT의 GPU 클라우드 플랫폼에 전달되면 GPU는 1초에 수천만 번의 연산을 통해 음성을 만들어 지연 없는 실시간 대화를 가능하게 해준다. 자주 쓰는 문장은 저장해뒀다 필요할 때 즉시 재생을 눌러 상대방에게 음성을 전달할 수도 있다.
KT는 향후 2년간 앱을 지원할 예정이다. 양율모 KT 홍보실장은 "목소리 찾기 프로젝트는 2003년부터 이어온 '소리찾기 사업'의 연장선으로, KT는 앞으로도 목소리 찾기 프로젝트를 이어갈 것"이라고 말했다.