우리말 AI 평가기준 나온다

입력
2023.09.25 15:02

우리말을 이용한 거대언어모델(LLM)의 성능을 평가하는 기준이 마련된다. LLM은 다양한 AI 개발의 밑바탕 역할을 한다.

인공지능(AI)을 개발하는 국내 신생기업(스타트업) 업스테이지와 한국지능정보사회진흥원(NIA)은 25일 공동으로 우리말 LLM 평가기준인 '오픈 Ko-LLM 리더보드'를 만든다고 밝혔다. 오픈 Ko-LLM 리더보드는 누구나 우리말 LLM을 개발해 등록하면 다른 LLM과 실력을 견줄 수 있는 공개 플랫폼이다.

이를 위해 양 측은 허깅페이스가 운영하는 AI 평가기준인 오픈LLM 리더보드의 자료를 단순 번역하지 않고 우리말 특성과 문화를 반영한 데이터를 자체 개발했다. 또 임희석 고려대 교수 연구진과 협력해 상식 생성 능력을 살펴보는 상식생성 기준을 추가해서 우리말 LLM의 성능과 다양성을 평가하도록 했다. 이를 통해 역사 왜곡, 형태소 오류 등 AI의 거짓 답변(환각 오류)과 혐오 표현을 줄일 수 있도록 했다.

양 측은 오픈 Ko-LLM 리더보드를 통해 다양한 연구 결과를 공유하고 공동 연구 및 협력을 촉진해서 우리말 AI의 성능을 높일 수 있을 것으로 보고 있다. 또 우리말 AI의 신뢰를 높여 국제 인지도를 끌어올릴 것으로 전망했다.

업스테이지는 이번 리더보드 구축을 계기로 국내 LLM 독립을 위한 생태계 조성에 기여할 계획이다. 김성훈 업스테이지 대표는 "리더보드 구축을 계기로 고품질의 우리말 자료 공유를 통해 국내 AI 생태계를 넓히고 발전시킬 수 있을 것"이라고 기대했다.

최연진 IT전문기자