인공지능(AI) 개발 기업들이 조만간 학습 데이터 부족으로 어려움을 겪을 수 있다는 관측이 제기됐다. AI 모델은 통상 학습하는 데이터가 많을수록 성능이 향상되는데, 현재 인터넷에서 사용 가능한 데이터는 한정돼 있기 때문이다.
월스트리트저널(WSJ)은 1일(현지시간) "강력한 AI를 개발하기 위해 경쟁하는 기업들이 새로운 문제에 예상보다 빠르게 직면하고 있다"며 "인터넷 공간이 그들의 계획에 비해 너무 작을 수 있다는 것"이라고 전했다.
보도에 따르면 AI 동향을 추적하는 에포크연구소는 오픈AI가 개발 중인 차세대 거대언어모델(LLM) GPT-5가 60조 개에서 최대 100조 개의 토큰(문장의 최소 단위)을 학습할 것으로 전망했다. 반면 지난해 출시된 GPT-4는 최대 12조 개를 학습한 것으로 추산했다. GPT-5를 훈련시키는 데 GPT-4가 학습한 양의 8배가 넘는 데이터가 필요할 수 있다는 얘기다. 하지만 오픈AI가 GPT-5에 현재 사용 가능한 고품질의 글과 이미지 데이터를 총동원해 학습시켜도 여전히 10조~20조 개가 모자랄 것으로 예측됐다.
이 연구소는 고품질 데이터에 대한 수요가 올해 중반 공급을 초과할 확률을 50% 정도로 보고 있다. 늦어도 2028년에는 90%의 가능성으로 수요가 공급을 넘어설 것으로 점치고 있다. 이미 공급이 수요를 따라가지 못하고 있는 AI 칩처럼 데이터가 턱없이 부족해지는 상황이 4년 안에 도래할 가능성이 크다는 뜻이다. 이렇게 되면 "AI 개발 속도가 둔화할 수 있다"고 WSJ는 분석했다.
이에 따라 양질의 데이터를 더 빨리, 더 많이 확보하려는 개발사 간 경쟁이 치열해지고 있다. 오픈AI는 GPT-5 학습 데이터 확보를 위해 최근 유튜브 동영상 녹취본 활용이 가능한지를 논의했다고 WSJ는 전했다. 경쟁사인 구글의 플랫폼까지 잠재적 정보 공급처로 검토할 만큼 양질의 데이터 확보에 애를 먹고 있다는 것이다.
업계에서는 오픈AI가 이날부터 계정 가입이나 로그인 없이도 챗GPT를 이용할 수 있게 한 것 역시 데이터 확보를 위한 것으로 보고 있다. 이용 절차가 간편해지면 이용자가 증가할 가능성이 크고, 이용자층이 확대되면 자연히 데이터 수집량도 늘기 때문이다.
AI 학습용 데이터가 빠르게 고갈되는 것은 언론사 등이 저작권 보호를 명분으로 데이터 사용을 막고 있기 때문이기도 하다. AI 개발사들은 이 문제를 해결하기 위한 방안도 연구하고 있는 것으로 알려진다. 구체적으로 오픈AI와 구글은 특정 콘텐츠가 AI 모델의 성능 향상에 얼마나 기여했는지를 평가하고 금액으로 계산해 내는 시스템을 개발 중이라고 알려졌다. 이른바 '데이터 값' 산출 근거를 마련해 이를 바탕으로 언론사들과 데이터 거래를 하겠다는 계획인 셈이다.
데이터를 스스로 충당하는 방안도 찾고 있다. AI 모델이 생성해낸 데이터를 다시 AI 학습에 사용하겠다는 것이다. 이 경우 AI 개발사 입장에서는 데이터 이용료를 따로 지불할 필요가 없어지지만, AI가 잘못 만들어낸 정보가 확대 재생산될 위험성이 크다는 한계가 있다.