음성·대화 서비스(챗봇)는 인공지능(AI)의 흡수가 가장 빠른 분야다. 단순한 질의 응답 수준에서 복잡한 업무까지 처리가 가능한 단계로 올라섰다. 하지만 완전한 인간의 대화 수준에 이르기엔 미흡한 부분도 있다. 대표적인 난관은 방언이다. AI 챗봇 개발 업체에 방언은 투자 대비 AI의 학습 속도가 더딘 분야다. 대부분의 콘텐츠가 표준어 중심으로 쌓이면서 빅데이터 확보가 어렵기 때문이다. 과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 AI 학습을 위한 방언 빅데이터를 구축하게 된 배경이다.
NIA의 '한국어 방언 AI 데이터' 구축 사업을 맡은 솔트룩스의 이경일 대표는 7일 본보와 가진 인터뷰에서 "전체 인구의 60%는 표준어나 표준어에 가까운 말을 구사하고, 20%는 표준어와 방언을 필요에 따라 선택하는 만큼 기업에서는 그쪽에만 집중할 수밖에 없다"며 "정부가 방언을 포함해 기업이 자체적으로 만들기 어려운 AI 학습용 데이터를 구축하고 공개한 것은 중요한 국가적 자산이다"라고 말했다.
솔트룩스가 유관기관과 강원도, 경상도, 전라도, 제주도, 충청도 등을 포함한 각 지역에서 모은 방언 문장만 250만 개에 달한다. 1만5,000시간의 음성 데이터로 이를 위해 5개 지역 1만 명 이상의 화자가 참여했다.
학습 가능한 AI용 데이터로 가공하기 위해선 3가지 과정이 필요했다. 화자가 특정 주제에 대해 방언으로 이야기를 녹음한 데 이어 녹음된 문장마다 문서화하고 녹음 및 전사된 파일의 품질을 검수했다. 이 과정엔 각 지역에서 10년 이상 거주한 방언 사용자가 동참했다. 이렇게 구축된 데이터는 'AI 허브'를 통해 외부에 공개, 지역민들에게 필요한 각종 서비스가 개발됐다.
KT의 'AI 시니어 돌봄서비스' 출시도 NIA의 빅데이터에서 출발했다. 이 서비스는 고령층이나 기저질환자의 고독사 예방과 정서적 안정 도모를 위해 개발됐다. 챗봇 서비스 개발 시 일반 음성에 비해 방언 인식률이 떨어지는 사례를 보면서 KT에선 자체적으로 방언 데이터를 구축했다. 하지만 각 지역에서 충분한 방언 데이터를 확보하는 데 어려움을 겪었고 인식률 문제에 봉착했다. 자체 구축한 AI에선 "쪼까 있습니다"를 "좋을까 있습니다"로, "오메 환장 하겄어"를 "오월 오인 환장한 것도"로 인식한 것이다. 이에 KT는 NIA의 'AI 허브 한국어 방언 데이터'를 모델에 추가 학습시키면서 인식률을 개선, 문제를 해결했다.
네이버도 정부의 한국어 대화데이터를 활용해 자사의 AI 챗봇인 '클로바 케어콜'을 학습시켰다. 이 서비스는 신종 코로나바이러스 감염증(코로나19) 상황에서 빛을 발했다. 클로바 케어콜은 코로나19 백신 예방접종자에게 접종일로부터 사흘간 매일 한 차례 전화를 걸어 이상 반응 여부를 확인하는 작업에 투입됐다. 접종자가 이상이 있다고 답하면 AI가 이를 즉각 방역 담당자에게 알려 담당자가 2차 확인을 하는 식이다. 이렇게 단순한 전화 모니터링 업무를 일 평균 3,000번씩 수행하면서 비상 사태에서 효율적이고 유연한 대처가 가능했다.
장두성 KT AI연구소 상무는 "AI를 학습시키는 방법에 대한 엔진 기술은 확보했지만 학습하기 위한 방언 등의 데이터를 모으는 게 어려웠다"며 "NIA의 AI 허브처럼 사전에 필요한 데이터가 확보되어 있으면 기업에서는 이를 빠르게 접목해 서비스를 개선할 수 있어 효과적이다"라고 말했다.