'그놈 목소리'... 보이스피싱 군집화 분석모델 세계 최초 개발

입력
2023.02.22 12:00
영국·러시아 모델보다 판별력 77%↑
'범인 목소리 군집화'로 수사에 전기
통합데이터분석센터 국과수 합작품

여러 보이스피싱 사건에서 등장한 목소리를 분석하고 유사성에 따라 범죄가담자를 그룹화할 수 있는 기술이 세계 최초로 국내에서 개발됐다. 연평균 3만 건 이상 발생하는 보이스피싱 사건 수사에 큰 도움이 될 것으로 기대된다.

행정안전부는 보이스피싱 사기범 검거에 활용할 수 있는 ‘보이스피싱 음성분석 모델’을 개발하고, 이달 말부터 음성 감정 등 사기범 수사에 활용한다고 22일 밝혔다.

이번에 개발된 모델은 100개의 범인 목소리 중 51개를 정확하게 구별할 수 있는 성능을 갖췄다. 그간 국립과학수사연구원(국과수)이 사용해 온 러시아와 영국에서 개발한 음성분석 모델은 100개 중 28개 정도만 판별이 가능했다. 국과수 관계자는 “기존 음성분석 모델은 외국어로 학습됐기 때문에 한국어 사용 범죄자의 동일인 여부 판별은 쉽지 않았다”며 "새로 개발된 모델은 기존 모델보다 77% 향상된 성능을 보였다”고 말했다.

행안부 통합데이터분석센터가 중심이 돼 개발한 이번 음성인식 모델은 범죄자 목소리 비교를 통해 군집화가 가능해졌다는 게 가장 큰 특징이다. 특정 범죄에서 검사를 사칭한 범죄자가 다른 범죄에서 수사관을 사칭할 경우, 동일성을 파악해 같은 조직 범죄라는 사실을 확인할 수 있게 된다는 얘기다. 국과수 관계자는 “보이스피싱은 단독범이 없고 범인이 여러 사건에 연루되는 경우가 많다”며 "개별 사건에서 확보한 범인 목소리를 조직별로 묶을 경우, 여죄 추궁까지 가능해져 검거율을 높일 수 있다”고 말했다.

실제 보이스피싱 범죄는 개인정보를 바탕으로 만든 시나리오에 따라 많은 인원이 동시 투입돼 이뤄지는 패턴을 보여 그간 수사당국에선 범인 목소리 분석과 군집화 필요성이 꾸준히 제기됐다. 사건별 연루자를 군집화하는 기능 구현은 세계 최초라는 게 행안부 설명이다.

최신 인공지능학습(AI 딥러닝) 기술을 활용해 만들어진 이번 음성분석 모델 개발과정에는 국내외 6,000여 명으로부터 추출한 100만 개 이상의 외국어와 한국어 음성데이터가 활용됐다. 국과수 관계자는 “한국어의 경우, 국과수가 보유 중인 실제 보이스피싱 사기범 음성데이터를 이용했다"며 "다양한 학습 과정과 성능 검증과정을 반복해 보이스피싱 화자 구분 등에 필요한 최적의 알고리즘을 만들었다”고 전했다.

경찰청에 따르면 국내에서 발생한 보이스피싱 범죄 피해 건수는 지난 5년간 15만6,249건, 피해액은 3조 원을 넘었다. 행안부 관계자는 "새로 개발한 음성분석 모델을 보이스피싱 수사에 적극 활용하고 해외 판매에도 나서겠다”고 말했다.



세종= 정민승 기자
세상을 보는 균형, 한국일보 Copyright © Hankookilbo