“AI 공짜 정보 수집 막자”... 아마존·로이터 등 챗GPT 차단 사이트 증가

입력
2023.08.28 09:30
이용자 많은 세계 상위 사이트 1000곳 중 9.2%
'웹 크롤러' 통한 콘텐츠 무단 사용 방지 목적

인공지능(AI) 열풍을 불러일으킨 ‘챗GPT’의 성장이 더뎌질 수도 있을 조짐이다. 챗GPT는 방대한 양의 데이터를 끌어모아 성능을 향상하는데, 아마존과 로이터통신 등 수십 곳의 영미권 대형 기업과 언론사들이 챗GPT의 정보 수집을 차단하고 나선 탓이다.

27일(현지시간) 영국 가디언과 AI 콘텐츠 정보 제공업체인 ‘오리지널리티.AI’에 따르면, 지난 22일 기준 전 세계 상위 1,000개 사이트 가운데 9.2%가 챗GPT의 정보 수집 툴인 ‘GPT봇(GPTBot)’을 차단했다. 특히 이용자 수가 많은 상위 100곳으로 범위를 좁히자, 차단율은 15%까지 증가했다.

GPT봇은 언어 모델 학습에 필요한 데이터를 수집하는 새로운 웹 크롤러다. 챗GPT 개발사인 오픈AI는 지난 7일 GPT봇을 공개하며 정보 수집이나 이용을 원치 않는 사이트 소유자에게 GPT봇의 크롤링을 차단하는 방법을 알렸다. 공개 첫 주인 지난 15일 기준 차단율은 5% 미만이었으나, 2주 차에는 10%까지 올라갔다. 오리지널리티.AI는 “GPT봇 접근을 막는 사이트 비율이 일주일 만에 5%포인트가량 증가하는 등 GPT봇 차단 사이트는 꾸준히 늘어나고 있다”고 설명했다

현재 GPT봇을 차단하는 주요 사이트에는 아마존, 이케아, 에어비엔비 등의 대형 기업도 포함돼 있다. 블룸버그통신과 로이터통신, 뉴욕타임스(NYT), CNN방송, 악시오스 등 유명 언론사들도 이름을 올렸다. 특히 로이터통신은 GPT봇 공개 다음 날 바로 웹크롤링을 차단해 주요 100개 사이트 중 가장 먼저 정보 수집을 막았다. 로이터 관계자는 “지적재산권은 사업의 생명선으로, 콘텐츠 저작권 보호가 필수”라고 밝혔다.

이처럼 주요 사이트들이 GPT봇을 차단하는 건 사전 동의 없는 콘텐츠 무단 사용을 막아 저작권을 보호하기 위해서다. 검색 엔진인 구글의 경우, 지난 5월 NYT에 뉴스콘텐츠 사용료로 3년에 걸쳐 1억 달러(약 1,327억 원) 지급을 합의한 것으로 알려졌다. 그러나 GPT봇과 같은 크롤러는 추출한 데이터나 정보의 사용을 위한 별도 허가나 비용을 필요로 하지 않아 ‘AI 저작권’ 논란은 더 거세질 전망이다.

이유진 기자