생성형 AI 성능 좌우하는 LLM…AI 영토 확장의 결정적 키

입력
2023.08.25 04:30
2면
구독

연구·개발 천문학적 비용 투입 기술 경쟁
뉴스 등 방대한 데이터 공짜 이용은 논란

최수연 네이버 대표가 24일 서울 강남구 그랜드인터컨티넨탈 서울파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 ‘생성형 AI 시대, 모두를 위한 기술 경쟁력’의 주제로 기조연설을 하고 있다. 뉴스1

최수연 네이버 대표가 24일 서울 강남구 그랜드인터컨티넨탈 서울파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 ‘생성형 AI 시대, 모두를 위한 기술 경쟁력’의 주제로 기조연설을 하고 있다. 뉴스1


네이버가 24일 공개한 '하이퍼클로바X'는 인공지능(AI)을 떠받치는 기술인 '대규모 언어모델'(LLM·Large Language Model)이다. 오픈AI의 '챗GPT' 같은 생성형 AI의 성능을 좌우하는 기술이라 미래 먹거리인 AI 영토 확장 승부를 결정지을 열쇠로 불린다.


'21세기 전기'와 같은 LLM, 연구개발에 천문학적 비용 투입


AI는 인간의 지능을 갖춘 컴퓨터 시스템이다. 인간처럼 합리적 추론이 가능한 모델을 '생성형 AI'라고 한다. 이때 LLM은 각종 정보를 모아 공부한 뒤 맥락을 알고 적절한 답을 만들어 생성형 AI에 공급한다. 일종의 'AI 서버'인 셈이다. 방대한 양의 데이터를 학습한 LLM은 인간의 언어(자연어)를 깊이 있게 이해해 사람처럼 문장을 쓰거나 음악을 만드는 등 창작도 할 수 있다.

그런 생성형 AI도 '돈 먹는 하마'라는 한계가 있다. LLM을 구축하려면 많은 양의 데이터와 컴퓨팅 파워가 뒷받침돼야 하고, 상용화를 위한 연구개발(R&D) 과정에 천문학적 비용이 들어간다. 구글의 '팜2'와 마이크로소프트(MS)의 투자를 받은 오픈AI의 'GPT4' 등이 사실상 점령하고 있는 배경이기도 하다. 현재 국내에서 글로벌 빅테크에 버금가는 AI 기술력을 갖춘 건 네이버가 유일하다는 평가가 많다. 네이버도 하이퍼클로바X를 비롯한 AI 분야 연구 개발을 위해 최근 3, 4년 동안 1조 원을 썼다.



"토종 AI 없으면 빅테크에 기술 종속 가속화"

최수연 네이버 대표가 24일 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 초대규모 AI '하이퍼클로바X' 관련 발표를 하고 있다. 네이버 제공

최수연 네이버 대표가 24일 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 초대규모 AI '하이퍼클로바X' 관련 발표를 하고 있다. 네이버 제공


자본과 기술력에서 글로벌 빅테크가 앞서 있다 보니 토종 LLM 개발을 회의적으로 보는 이들도 있다. 차라리 빅테크가 공부시킨 LLM 모델을 국내 ICT(정보통신기술) 서비스에 적용하는 게 비용을 아끼는 현실적 방안이라는 이유에서다.

그러나 네이버는 초격차를 가진 원천 기술력으로서 LLM을 갖지 못하면 해외 AI 기술력에 종속될 수밖에 없다는 생각을 강하게 갖고 있다. IT업계 관계자는 "오픈AI가 GPT 기술을 개방한 듯 보이지만 특정 나라나 기업을 배제하는 방식으로 정책을 바꾸면 속수무책이 된다"고 걱정했다. 반도체 패권 경쟁처럼 AI 기술 패권 경쟁도 언제든 불붙을 수 있다는 뜻이다. 빅테크의 AI가 데이터를 공부하면서 여러 나라 기업의 기술은 물론 이용자 개인 정보 등 민감한 데이터를 마음대로 들여다볼 수 있다는 우려도 크다.



공짜 데이터로 큰 AI, 이용료 문제 해결은 과제

최수연 네이버 대표가 24일 서울 강남구 그랜드인터컨티넨탈 서울파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 기조연설을 하고 있다. 뉴스1

최수연 네이버 대표가 24일 서울 강남구 그랜드인터컨티넨탈 서울파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 기조연설을 하고 있다. 뉴스1


네이버를 포함한 빅테크들이 공통적으로 해결해야 할 과제도 있다. 초거대 AI의 성능이 좋아질수록 공짜로 학습한 데이터의 양도 늘어나는 만큼 저작료를 둘러싼 논란이 거세다.

현행 저작권법에선 데이터 이용 목적이 이른바 공정 이용(공익)에 해당하면 허락이나 대가 없이 쓸 수 있다. 학교 교육이나 재판 등에 쓰는 경우다. AI는 여기에 해당하지 않지만 공익을 위한 신기술 개발임을 내세워 뉴스나 논문, 서적 등의 데이터를 학습에 마구잡이로 써 왔다. 네이버도 하이퍼클로바X에 뉴스와 블로그 데이터 등을 학습시켰다.

그러나 기업들이 생성형 AI로 수익화에 나선 이상 데이터를 학습하려면 허가를 받고 정당한 대가도 내야 한다는 지적이 나온다. 한국신문협회도 최근 네이버·카카오·구글코리아·MS 등에 뉴스 저작물에 대한 적절한 사용료 지급을 공개 촉구했다. 최수연 네이버 대표는 "규제 동향이나 논의 방향이 어떻게 흘러갈지 관심 있게 보고 있다"면서도 명확한 해결책을 내지는 않았다. 다만 그는 "앞으로 학습에 참고하는 부분은 동의를 받고 명확하게 싫다고 하는 부분에 대해선 (이용을) 하지 않는 방향으로 잡고 있다"고 설명했다.



김지현 기자

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.