한국일보

'GPT-5' 공부량 8배나 느는데... 더 학습시킬 데이터가 없다

입력: 2024.04.03 04:30

"향후 4년 내 수요가 공급 초과" 전망
'양질의 데이터' 확보 경쟁 격화할 듯

인공지능(AI) 개발 기업들이 조만간 학습 데이터 부족으로 어려움을 겪을 수 있다는 관측이 제기됐다. AI 모델은 통상 학습하는 데이터가 많을수록 성능이 향상되는데, 현재 인터넷에서 사용 가능한 데이터는 한정돼 있기 때문이다.

월스트리트저널(WSJ)은 1일(현지시간) "강력한 AI를 개발하기 위해 경쟁하는 기업들이 새로운 문제에 예상보다 빠르게 직면하고 있다"며 "인터넷 공간이 그들의 계획에 비해 너무 작을 수 있다는 것"이라고 전했다.

보도에 따르면 AI 동향을 추적하는 에포크연구소는 오픈AI가 개발 중인 차세대 거대언어모델(LLM) GPT-5가 60조 개에서 최대 100조 개의 토큰(문장의 최소 단위)을 학습할 것으로 전망했다. 반면 지난해 출시된 GPT-4는 최대 12조 개를 학습한 것으로 추산했다. GPT-5를 훈련시키는 데 GPT-4가 학습한 양의 8배가 넘는 데이터가 필요할 수 있다는 얘기다. 하지만 오픈AI가 GPT-5에 현재 사용 가능한 고품질의 글과 이미지 데이터를 총동원해 학습시켜도 여전히 10조~20조 개가 모자랄 것으로 예측됐다.

챗GPT 문턱 낮춘 오픈AI, 데이터 확보 노림수?

이 연구소는 고품질 데이터에 대한 수요가 올해 중반 공급을 초과할 확률을 50% 정도로 보고 있다. 늦어도 2028년에는 90%의 가능성으로 수요가 공급을 넘어설 것으로 점치고 있다. 이미 공급이 수요를 따라가지 못하고 있는 AI 칩처럼 데이터가 턱없이 부족해지는 상황이 4년 안에 도래할 가능성이 크다는 뜻이다. 이렇게 되면 "AI 개발 속도가 둔화할 수 있다"고 WSJ는 분석했다.

이에 따라 양질의 데이터를 더 빨리, 더 많이 확보하려는 개발사 간 경쟁이 치열해지고 있다. 오픈AI는 GPT-5 학습 데이터 확보를 위해 최근 유튜브 동영상 녹취본 활용이 가능한지를 논의했다고 WSJ는 전했다. 경쟁사인 구글의 플랫폼까지 잠재적 정보 공급처로 검토할 만큼 양질의 데이터 확보에 애를 먹고 있다는 것이다.

업계에서는 오픈AI가 이날부터 계정 가입이나 로그인 없이도 챗GPT를 이용할 수 있게 한 것 역시 데이터 확보를 위한 것으로 보고 있다. 이용 절차가 간편해지면 이용자가 증가할 가능성이 크고, 이용자층이 확대되면 자연히 데이터 수집량도 늘기 때문이다.

'데이터 값' 산출 시스템도 개발 중

AI 학습용 데이터가 빠르게 고갈되는 것은 언론사 등이 저작권 보호를 명분으로 데이터 사용을 막고 있기 때문이기도 하다. AI 개발사들은 이 문제를 해결하기 위한 방안도 연구하고 있는 것으로 알려진다. 구체적으로 오픈AI와 구글은 특정 콘텐츠가 AI 모델의 성능 향상에 얼마나 기여했는지를 평가하고 금액으로 계산해 내는 시스템을 개발 중이라고 알려졌다. 이른바 '데이터 값' 산출 근거를 마련해 이를 바탕으로 언론사들과 데이터 거래를 하겠다는 계획인 셈이다.

데이터를 스스로 충당하는 방안도 찾고 있다. AI 모델이 생성해낸 데이터를 다시 AI 학습에 사용하겠다는 것이다. 이 경우 AI 개발사 입장에서는 데이터 이용료를 따로 지불할 필요가 없어지지만, AI가 잘못 만들어낸 정보가 확대 재생산될 위험성이 크다는 한계가 있다.

실리콘밸리= 이서희 특파원 shlee@hankookilbo.com

당신이 관심 있을만한 이슈

이스라엘-이란 전쟁 격화

국제형사재판소(ICC), 네타냐후·하마스 간부 체포영장 발부

국제형사재판소(ICC)가 베냐민 네타냐후 이스라엘 총리와 팔레스타인 무장정파 하마스 간부 등에 대한 체포영장을 발부했다. 2023년 10월 하마스의 이스라엘 기습 공격과 이후 2년 넘게 지속되는 가자지구 전쟁에 대한 책임을 묻겠다는 것이다. ICC는 21일(현지시간) 전쟁범죄 및 반인륜적 범죄 혐의로 네타냐후 총리와 요아브 갈란트 전 국방장관 및 하마스 간부에 대한 체포 영장을 발부했다. ICC는 "두 사람은 이스라엘의 반인도적 범죄가 가자지구의 민간인을 대상으로 한 광범위하고 조직적인 공격의 일부라는 점을 확인했다"고 설명했다. 또 "두 사람이 고의적으로 가자지구의 민간인에게서 식량, 물, 의약품, 의료용품부터 연료와 전기 등 생존에 필수적인 물건을 최소한에서 박탈했다"고 판단했다. 인도적 지원을 허용하거나 늘리는 결정이 조건부인 경우가 많다는 점 또한 지적했다. 통상 체포 영장 발부는 증인과 수사 진행 과정을 보호 및 보장하기 위해 비밀에 부쳐진다. 그러나 이들의 행위가 계속되고 있는 것으로 판단되며 영장에 대해 알리는 것이 피해자들과 유가족들에게 이익이 된다고 보아 발표를 결정했다고 ICC는 밝혔다. 네타냐후 총리는 앞서 ICC의 카림 칸 부장검사가 영장을 청구하자 수치스럽고 반유대적이라고 반발했다. 조 바이든 미국 대통령도 이스라엘이 하마스에 맞서 스스로를 지킬 방어권을 지지한다며 거들었다. 하마스도 ICC의 체포영장 발부를 비난했다. 다만 ICC 체포영장은 강제성이 없어 살아있는 권력에 대해서는 실효성이 적다는 평가다. 이스라엘은 ICC 미가입국이도 하다. 하지만 미국의 중재로 물밑에서 진행되고 있는 이스라엘과 하마스의 휴전 협상에는 부정적인 영향을 미칠 것이란 우려가 나온다.

이재명 '선거법 위반' 1심 유죄

이재명, 선거법 징역형에 항소...2심 재판부에 정치생명 걸렸다

이재명 더불어민주당 대표가 징역형이 선고된 공직선거법 위반 사건 1심 선고에 불복해 21일 항소했다. 법조계에 따르면 이날 이 대표 측은 서울중앙지법에 항소장을 냈다. 1심 판결이 지난 15일 선고돼 항소장 제출 기한이 22일인 만큼 검찰도 곧 항소장을 낼 것으로 보인다. 1심 재판부는 지난 15일 공직선거법상 허위사실 공표 혐의로 기소된 이 대표에게 징역 1년, 집행유예 2년을 선고했다. 재판부는 고(故) 김문기 전 성남도시개발공사 개발1처장과 관련해 “해외 출장 기간 중 김문기와 골프를 치지 않았다"는 발언과 경기 성남 백현동 한국식품연구원 부지의 용도 변경 특혜가 국토교통부의 압박에 의해 이뤄졌다는 취지의 발언을 모두 허위사실 공표라고 판단했다. 1심과 같이 징역형 이상이 대법원에서 확정될 경우 이 대표는 국회의원직을 잃고, 피선거권이 10년간 제한돼 대선에 출마할 수 없다. 아울러 민주당은 중앙선거관리위원회에 선거 보전 비용 434억 원을 반납해야 한다. 반면 항소심에서 형량이 벌금 100만 원 미만으로 낮아지면 이 대표는 이런 불이익을 받지 않는다.

러시아, 우크라이나 침공

우크라이나 스톰섀도 쏘자, 러시아 ICBM 날렸다... 확전 속 '트럼프 휴전안'도 부상

우크라이나·러시아 전쟁 강도가 무섭게 치솟고 있다. 우크라이나가 미국산 장거리 미사일 에이태큼스(사거리 약 300㎞)에 이어 영국산 스톰섀도(사거리 약 250㎞)로 연이틀 러시아를 공격하자 러시아는 21일(현지시간) 우크라이나로 대륙간탄도미사일(ICBM)을 발사하며 맞받았다. 서방이 우크라이나에 장거리 미사일을 러시아 본토 공격용으로 쓸 수 있도록 허용한 것도, 러시아가 사거리 수천㎞의 ICBM을 쏜 것도 2022년 2월 개전 이래 처음이다. 전쟁 격화 와중에 러시아가 점령한 우크라이나 영토를 그대로 둔 채 휴전을 추진하자는 도널드 트럼프 미국 대통령 당선자 구상에 블라디미르 푸틴 러시아 대통령이 보조를 맞출 것이라는 관측까지 나왔다. 러시아의 '우크라이나 영토 3등분설'도 제기된 상태다. 협상 개시 전 영토를 한 치라도 더 확보하려는 양측의 거친 공세가 당분간 이어질 것이라는 우려가 팽배하다. 우크라이나 공군에 따르면 러시아는 21일 오전 5~7시 남부 카스피해 인근 도시 아스트라한에서 우크라이나 중동부 드니프로를 향해 ICBM을 비롯, 극초음속 미사일 Kh-47M2 킨잘, Kh-101 순항미사일 등을 섞어 발사했다. 볼로디미르 젤렌스키 우크라이나 대통령은 "오늘(21일) 새로운 러시아 미사일이 있었고 속도, 고도 등 모든 특징이 ICBM임을 보여준다"며 "푸틴은 우크라이나를 자신의 훈련장으로 활용하고 있다"고 말했다. 우크라이나는 '분석 중'이라는 이유로 ICBM 사양을 구체적으로 언급하지 않았다. 다만 우크라이나 매체 우크라인스카 프라우다는 익명의 소식통을 인용해 "러시아 ICBM 'RS-26 루베즈'가 투입됐다"고 전했다. 앞서 러시아 모스콥스키콤소몰레츠도 러시아가 해당 무기로 우크라이나 수도 키이우를 공격할 것이라는 예고성 보도를 전한 바 있다. 해당 미사일의 사거리는 5,800㎞ 정도로, 핵 및 재래식 탄두를 장착해 운용할 수 있다. 러시아의 공격은 우크라이나가 12기의 스톰섀도를 러시아로 발사(20일)한 다음 날 이뤄졌다. 영국 텔레그래프 등에 따르면 스톰섀도가 타격한 곳은 우크라이나가 지난 8월 일부를 점령하고 러시아가 이를 탈환하고자 북한군까지 투입한 러시아 서부 쿠르스크주였다. 우크라이나 군사 매체 디펜스 익스프레스는 "러·북 지휘관들이 은신한 쿠르스크 지휘 센터를 타격하고자 스톰섀도가 동원됐다"고 전했다. 우크라이나는 19일에도 에이태큼스 6기를 접경지인 러시아 브랸스크를 향해 쐈다. 조 바이든 미국 대통령이 17일 에이태큼스의 러시아 본토 공격 제한을 해제했다는 보도가 나온 지 이틀 만이었다. 러시아 크렘린궁은 ICBM 발사에 대해 "말할 수 있는 것이 없다. 군에 연락하기를 추천한다"며 답변을 회피했다. 러시아가 보복 공격에 ICBM까지 동원한 것은 사실상 서방을 겨냥한 '경고'라는 분석이 지배적이다. 개전 후 2년 9개월 만에 처음으로 '전략무기' ICBM을 동원한 것 자체가 미국과 영국 등 북대서양조약기구(NATO·나토) 회원국을 사정권에 두는 무기도 언제든 투입할 수 있다는 경고 메시지이기 때문이다. 러시아는 우크라이나의 에이태큼스 발사 후 "러시아에 대한 서방의 전쟁이 새로운 단계로 접어드는 것"(세르게이 라브로프 러시아 외무부 장관)이라고 분노했다. ICBM에는 핵 탄두 장착이 가능한 만큼 핵 사용을 불사하겠다는 신호로도 읽힌다. 러시아는 이미 19일 핵 교리 개정을 통해 핵 보복 범위를 넓혀 놨다. 개정된 내용의 핵심은 '비(非)핵보유국이 핵보유국 지원하에 러시아를 공격하면 모두 핵 공격 대상으로 삼겠다'는 부분인데, 우크라이나(비핵보유국)를 지원하는 미국·영국 등을 염두에 뒀다는 풀이가 많았다. 또 우크라이나군 패트리어트 대공 방어 미사일 시스템 요격을 피하기 위해 일반 미사일이 아닌 ICBM을 고각 발사한 것 아니냐는 해석도 있다. 공군이 밝힌 ICBM 발사 장소와 목표 지점 간 거리는 약 740㎞로 최대 사거리에 한참 못미친다. 이날 러시아 미사일에 피해를 입은 지역 중에는 젤렌스키 대통령 고향인 드니프로페트로브스크주 크리비리흐시가 포함돼 있다는 점에서 다분히 '정치적 공격'으로도 볼 수 있다. 전쟁 수위가 시시각각 높아지는 것은 내년 1월 취임하는 트럼프 당선자가 전쟁을 최대한 빨리 끝내기 위해 휴전 또는 종전을 밀어붙일 것이라는 관측과도 무관치 않다. 트럼프 2기 출범 직후 진행될 수 있는 우크라이나·러시아 간 휴전 또는 종전 협상에서 유리한 고지를 차지하기 위해 양측이 최대치 공세를 이어가고 있다는 해석이다. 로이터는 러시아 전현직 관리 5명과의 인터뷰를 통해 "푸틴 대통령은 트럼프 당선자와 휴전 협정을 논의할 의향이 있다"고 전하면서 트럼프 당선자 구상은 현실화 가능성이 더 커졌다. '러시아가 점령한 우크라이나의 도네츠크·루한스크·자포리자·헤르손 등을 분할하는 것과 관련해 협상할 여지가 있다'는 비교적 상세한 시나리오도 로이터는 제시했다. 급기야 '우크라이나 분할 방안'까지 나왔다. 우크라이나 인테르팍스통신은 러시아 국방부가 '2045년까지 우크라이나를 세 부분으로 나눠 서부는 유럽이, 중부는 친(親)러시아 정부가, 동부는 러시아에 병합한다'는 시나리오를 마련했고 이를 미국 지도부에 전달할 것이라고 우크라이나 정보 소식통을 인용해 보도했다. 상황이 계속 불리해지면서 우크라이나 입장에도 미묘한 변화가 감지되고 있다. 볼로디미르 젤렌스키 우크라이나 대통령은 20일 미 폭스뉴스 인터뷰에서 '2014년 러시아가 점령한 크림반도를 포기할 의향이 있느냐'는 질문에 "크림반도 반환을 위해 수만 명의 국민을 죽게 할 수는 없다"며 '외교 채널 가동' 필요성을 말했다. '크림반도는 우크라이나 영토'라는 입장은 그대로지만, 크림반도 반환까지를 전쟁 목표로 두던 것에 비하면 한발 물러섰다는 해석도 가능했다. 최근 여론조사기관 갤럽이 우크라이나 국민을 대상으로 실시한 조사에서 52%가 '빠른 종전'을, 이 중 52%가 '영토 일부 양보 가능'이라고 답하는 등 우크라이나 내부 여론도 전쟁 장기화에 동요하는 상황이다.

채상병 수사외압 의혹

군검찰, '채 상병 사망' 박정훈 대령에 징역 3년 구형..."매우 중대한 범죄, 엄벌 필요"

군검찰이 항명 및 상관명예훼손 혐의로 기소된 박정훈 전 해병대 수사단장(해병 대령)에게 징역 3년을 구형했다. '채 상병 사망사건'의 초동 조사 수사단장인 박 대령은 "조사 결과의 민간 경찰 이첩 보류 명령를 명확히 지시받은 적 없다"며 무죄를 주장했다. 군검찰은 21일 오후 서울 용산구 중앙지역군사법원에서 진행된 결심공판에서 "군의 기강을 담당하는 군사경찰 고위장교라는 점을 감안하면 매우 중대한 범죄"라고 지적한 뒤, "군 전체의 기강에도 큰 악영향을 끼쳤다는 점을 고려할 때 엄벌이 필요하다"며 징역 3년의 실형을 재판부에 요구했다. 항명죄를 규정한 군형법 제44조에서 전시 등을 제외한 '그 밖의 상황'에 적용되는 최고 형량을 제시한 것이다. 박 대령은 지난해 7월 19일 발생한 채 상병 순직 사건의 조사 결과 보고서를 같은 달 30일 이종섭 전 국방부 장관에게 대면 보고했다. 이 전 장관은 보고서를 결재했다가 돌연 경찰 이첩 보류를 지시했지만, 박 대령은 8월 2일 관련 서류를 관할인 경북경찰청에 인계했다. 군검찰은 이 과정에서 민간 경찰 이첩을 보류하라는 김계환 해병대사령관의 명령에 따르지 않고, 언론 발언 등을 통해 상관인 이 전 장관의 명예를 훼손한 혐의로 박 대령을 지난해 10월 재판에 넘겼다. 박 대령은 그러나 항명 혐의에 대해 극구 부인했다. 그는 이날 최후 변론을 통해서 "김 사령관은 이첩 보류 명령이 명시적이거나, 구체적이거나, 어떤 내용으로든 이첩 보류를 명령한 사실이 없다"며 "사건 이첩을 중단시킬 그런 명확한 의사도 없었다"고 말했다. 이어 "(검찰은) 김 사령관이 이첩 보류 명령을 7월 31일부터 8월 1일까지 3회에 걸쳐서 했다고 하는데, 3회에 걸친 명령을 수명하지 않았는데 적절한 조치가 취해지지 않은 것 자체가 명령이 없었다는 방증"이라고 주장했다. 박 대령은 이 전 장관에 대한 상관명예훼손 혐의에 대해서는 "(군)검찰의 자의적이고 잘못된 입건이자 기소"라고 반박했다. 박 대령은 "처음엔 항명죄로 해오다가 구속영장을 청구하면서 예비적 창구로 검찰이 상관명예훼손을 갖고 나왔다"며 "상관(이 전 장관)이 명예훼손당했다는 진술서 한 장 없는 경우가 어딨느냐"고 말했다. 이어 "장관의 명예를 훼손시킬 고의나 목적, 의도는 전혀 없었다"고도 덧붙였다. 이날 결심공판에는 조국 조국혁신당 대표와 추미애 더불어민주당 의원 등 야당 의원들도 대거 방청했다. 마침 박 대령 생일이기도 해, 그의 어머니도 방청석에 자리를 함께했다. 박 대령을 응원하기 위해 온 해병대 예비역 연대, 현역 장병 부모 모임 등 시민들도 있었다. 100여 명이 방청할 수 있는 법정이 가득 차면서, 일부는 통로에 앉거나 서서 재판을 지켜봤다. 검찰의 징역 3년에는 방청석 곳곳에서 고성과 야유가 터져 나왔다. 박 대령에 대한 선고는 이르면 다음 달 이뤄질 전망이다.