한국어 빠르게 배우는 해외 빅테크 AI들...고민 깊어진 토종 플랫폼

입력
2024.05.21 21:00
14면
오픈AI GPT-4o 한국어 토큰 효율 1.7배 개선


글로벌 빅테크가 만드는 생성형 인공지능(AI)의 한국어 실력이 빠르게 좋아지고 있다. 생성형 AI가 학습할 때 한국어는 영어와 비교해 토큰(텍스트 최소 단위)을 많이 써서 비용을 많이 내야 했는데 빅테크 AI 한국어 서비스 효율이 이전보다 높아졌다는 뜻이다. 한국어 능력 우위를 강조했던 토종 AI 기업들은 경쟁력을 더 강화해야 하는 숙제가 생겼다.

21일 정보기술(IT) 업계에 따르면 오픈AI가 새로 선보인 대규모언어모델(LLM)이자 멀티모달 AI인 GPT-4o는 한국어를 포함해 50개 언어를 지원한다. 특히 영어 외 언어의 토큰 효율이 좋아졌다. GPT-4o 한국어 실력은 기존 GPT4-터보 모델에 비해 1.7배 개선됐다. 같은 양의 한국어 텍스트를 투입했을 때 이전보다 더 적은 토큰으로 처리할 수 있다는 뜻이다. 생성형 AI는 학습할 때 토큰당 비용을 내기 때문에 이렇게 되면 비용도 크게 줄어든다. 오픈AI는 "GPT-4o의 응용 프로그램 인터페이스(API)가 이전 버전인 GPT4-터보와 같은 성능을 더 빠르고 50% 저렴하게 제공한다"고 설명했다.

다른 빅테크들도 다국어 능력이 좋아진 AI 서비스를 내놓는 데 힘을 쏟고 있다. 구글은 15일 멀티모달 AI 모델 제미나이 1.5 프로 한국어 서비스를 출시했다. 제미나이 1.5 프로는 최대 100만 개의 토큰 처리 능력을 갖췄다. 100개의 이메일을 단 몇 초 만에 요약하고 한 시간 분량의 동영상을 한 번에 처리할 수 있는 능력이다. 구글은 조만간 200만 개의 토큰 처리 능력을 갖춘 버전도 출시할 예정이다.

마이크로소프트(MS)도 최근 AI비서 '365코파일럿' 한국어 서비스를 내놨다. 코파일럿은 챗봇뿐 아니라 워드·파워포인트·엑셀 등 문서 작성도 돕는 AI 서비스다. 영어·중국어 등 8개 언어만 이용할 수 있었는데 이제 한국어로 물으면 한국어로 문서를 작성해준다.



네이버는 소버린AI 투자 강화… 카카오는 AI서비스로 방향 틀어


그동안 국내 AI 기업들은 빅테크의 LLM을 활용하면 한국어 기반 작업 시 토큰을 많이 써야 하기 때문에 비싼 비용을 지불해야 한다고 지적해왔다. 하지만 빅테크가 다국어 토큰 효율화를 이루면 이 같은 주장의 힘이 떨어지게 된다. IT 업계 관계자는 "빅테크가 한국 AI 시장을 공략하겠다고 마음만 먹는다면 자본력과 기술력을 앞세워 언제든 한국어 데이터를 빠르게 공부시키고 비용도 아껴 시장을 장악할 것"이라고 우려했다. 다만 현재까진 네이버의 '하이퍼클로바X'를 비롯한 토종 LLM이 한국어 데이터 학습량과 한국 문화 이해도 측면에서 빅테크 AI보다 우위에 있다는 게 업계의 시각이다.

빅테크의 AI 기술이 예상보다 빠른 속도로 성장하면서 토종 기업들도 고민이 커졌다. 자체 초거대AI 모델 하이퍼클로바X를 보유한 네이버는 '소버린 AI 전략'을 강화하고 있다. 데이터주권에 대한 인식이 높아질수록 해당 국가의 문화와 언어에 대한 이해도가 높은 소버린 AI가 필요하다고 보기 때문이다. 네이버는 연구개발(R&D) 비용 대부분을 AI 기술 개발에 투입하고 있다.

반면 카카오는 비용이 막대하게 투입돼야 하는 LLM 대신 사용자 중심 AI 서비스 개발로 방향을 틀었다. 정신아 카카오 대표는 17일 주주서한에서 "카카오는 수익모델이 명확하지 않은 대규모 모델 연구 개발 중심에서 벗어날 필요가 있다고 판단했다"면서 "AI 페르소나를 활용한 채팅 환경을 통해 전문가 상담, 고객 관리, 상품 추천 등을 준비하고 있다"고 밝혔다.



김지현 기자
세상을 보는 균형, 한국일보 Copyright © Hankookilbo