미국 기업 오픈AI가 25일(현지시간)부터 생성형 인공지능(AI) 챗봇 챗GPT에 고급 음성 모드(Advanced Voice Mode)를 도입한다. 사람처럼 거의 지연 없이, 자연스러운 어조로, 감정까지 표현하며 반응해 영화 '그녀(Her)'의 현실판이라는 평가를 받았던 기능이다. 사람에 가까운 목소리를 내는 챗GPT는 AI와의 상호작용 몰입감을 크게 끌어올릴 것으로 전망된다. AI 비서가 진짜 비서에 더욱 가까워질 것이라는 얘기다.
2022년 말 챗GPT 등장 후 최근까지 AI 업계의 경쟁은 AI 성능 자체를 진화하는 데 집중돼 있었다. 그러나 음성 모드의 경우, 대답이 느리고 정교하지 못해 여전히 기계라는 인상을 줬다. 앞으로의 싸움은 '누가 진짜 사람처럼, 더 자연스럽게 말하는 AI를 만드느냐'가 될 것이라는 분석이 나온다. 생성형 AI 경쟁의 2라운드가 시작된 것이다.
오픈AI는 챗GPT 유료 이용자를 대상으로 25일부터 고급 음성 모드 서비스를 시작한다고 23일 발표했다. 챗GPT는 지금도 음성 대화가 가능하지만, 고급 음성 모드가 장착되면 "더 자연스러운 실시간 대화를 할 수 있고, 감정과 비언어적 신호(한숨, 비명 등)도 파악하고 반응할 수 있다"고 회사 측은 밝혔다. 현재는 음성 응답 시 최대 5.4초의 지연이 있는 반면, 고급 음성 모드의 챗GPT는 평균 320밀리초(1밀리초=1,000분의 1초) 내에 반응한다는 게 오픈AI의 설명이다. 음성은 총 9개가 제공된다. 영화 '그녀'에서 AI 목소리를 연기한 배우 스칼릿 조핸슨이 "내 목소리를 모방했다"고 주장해 논란이 됐던 목소리는 결국 지원 음성에서 제외됐다.
고급 음성 모드는 영어 등 50개 이상 언어에서 작동한다. 이에 따라 챗GPT의 한국어 구사력도 눈에 띄게 향상될 것으로 기대된다. 실제로 이날 오픈AI가 기자들에게 선보인 시연에서 고급 음성 모드 상태 챗GPT는 훨씬 빠르고 자연스럽게 반응하는 모습을 보였다. "자기소개를 해 줄래"라고 주문한 지 1초 만에 "저는 챗GPT라고 해요"라고 인사하며 소개를 이어갔다. 중간에 말을 끊고 "이제 애교를 좀 담아줘"라고 하자 곧바로 귀엽게 목소리를 전환했다. "갑자기 너무 혀가 짧아진 것 아냐? 더 정중하게 말하는 게 좋을 것 같아"라고 꼬집자, 챗GPT는 "제가 조금 과했나요"라고 되물은 뒤 차분한 어조로 다시 바꿨다.
고급 음성 모드는 원래 오픈AI가 올 상반기에 출시하려 했던 기능이다. 지난 5월 새 AI 모델 'GPT-4o(포오)'를 발표하며 이 모델 핵심 기능인 고급 음성 모드를 '몇 주 안에' 선보이겠다고 했었는데, 한 달 뒤 돌연 "시간이 더 필요하다"며 출시를 미뤘다. 그사이 불거진 조핸슨 목소리 모방 논란이 영향을 미쳤을 것이라는 해석이 나왔다.
오픈AI는 이후 안전성을 전면 재검토한 것으로 보인다. 한 관계자는 "29개 지역, 45개 언어를 구사하는 외부 인사들과 협력해 테스트했다"고 말했다. 오픈AI는 "고급 음성 모드는 유해하거나 정치적 견해가 담긴 답변, 저작권 침해 소지가 있는 말을 하지 않도록 설계됐으며, 제공된 9개 음성 외 다른 음성도 출력하지 않을 것"이라고 밝혔다. 음성 모방 가능성을 원천 차단하겠다는 취지다.
테크업계에서는 이날 오픈AI의 고급 음성 모드 출시를 계기로 음성 비서 고도화 경쟁이 불붙을 것으로 전망한다. 구글이 지난달 이용자의 복잡한 질문을 이해하고 반응하는 AI 음성 비서 '제미나이 라이브'를 선보인 데 이어, 메타와 아마존도 진화한 음성 비서 발표를 준비하고 있다. 애플도 다음 달 중 음성 비서 '시리'에 AI 기능을 적용할 예정이다.