컴퓨터가 이해하는 말, '말뭉치'를 아시나요?

입력
2022.04.22 04:30
25면
ⓒ게티이미지뱅크

ⓒ게티이미지뱅크

비교적 최근에 진행되는 언어변화를 살펴보자. 예전에는 구분했던 '애'와 '에' 발음을 지금은 구분하지 않고 '애'와 '에'의 중간음 정도로 발음한다. '낮'의 반대말인 '밤'과, 밤나무 열매인 '밤'의 장단음 구분도 곧바로 인식하기 어렵다. '내돈내산'처럼 문장을 줄여 단어처럼 쓰기도 하고 '가격'에 '착하다'를 어울려 써 '착하다'의 뜻을 확장하기도 한다. 이렇게 언어변화는 점진적으로 진행되고, 그 변화를 포착하기란 쉽지 않은 일이어서 최근에는 말뭉치를 주로 활용한다.

말뭉치는 1980년대에 '코퍼스(corpus)'의 번역어로 사용하기 시작했다. 말을 문자로 종이에 기록했던 시대를 지나 지금은 컴퓨터에 말을 저장한다. 음성과 수어도 컴퓨터에서 듣고 볼 수 있다. 이처럼 언어를 처리하기 위해 컴퓨터가 읽을 수 있는 형태로 만든 것을 말뭉치라고 한다.

말뭉치는 언어변화를 관찰할 때 유용하다. 신소설 말뭉치를 만들어 활용하면 지금과는 다른 당시의 언어 사용 양상을 통계적으로 확인할 수 있다. 신소설 말뭉치에서 '조바심'이나 '몸부림'을 검색하면 두 단어는 모두 '하다'와 빈번하게 어울리는 것을 볼 수 있는데 현대국어에서 두 단어는 각각 '내다'나 '치다'와 더 많이 어울려 차이가 난다.

말뭉치는 언어 연구뿐만 아니라 사회 현상 분석, 범죄 분석, 심리 분석에도 활용된다. 인터넷 검색, 챗봇, 인공지능 스피커 개발에도 신문과 같은 문어 자료나 에스엔에스(SNS), 일상대화 말뭉치를 필수적으로 사용한다. 산업혁명 시기에 석탄이 중요한 자원으로 이용된 것처럼 4차 산업혁명 시대에는 말뭉치가 공공재로서 언어산업 분야에서 활약하길 기대한다.

황용주 국립국어원 학예연구관

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.