초거대 인공지능(AI) 모델 학습에 드는 막대한 비용을 절감하고 컴퓨팅 효율을 높일 수 있는 기술을 국내 연구진이 개발했다. 이번 기술이 중국의 추론형 AI 모델 ‘딥시크’의 등장으로 시작된 고효율·저비용 AI 개발 트렌드를 가속화하는 데 기여할 수 있을지 주목된다.
유민수 한국과학기술원(KAIST·카이스트) 전기·전자공학부 교수 연구진은 삼성전자 삼성종합기술원과의 공동 연구를 통해 다양한 분산학습 전략을 써서 대형언어모델(LLM)의 학습 효율을 높일 수 있는 시뮬레이션 프레임워크(vTrain)를 개발했다고 13일 밝혔다.
LLM은 수만 개의 데이터센터용 그래픽처리장치(GPU)를 갖춘 분산 시스템에서 학습되는데, 오픈AI의 GPT-4의 경우 모델 학습에 소모되는 비용이 약 1,400억 원에 육박하는 것으로 추산된다. 비용을 줄이고 학습 효율을 높이려면 최적의 분산학습 전략을 찾는 게 필수다. 그러나 가능한 전략의 경우의 수는 방대한데, 실제 환경에서 각 전략의 성능을 시험하는 데는 많은 비용과 시간이 들어간다. 이에 기업들은 낮은 효율에도 불구하고 검증된 소수의 전략만을 사용하고 있다.
연구진이 개발한 vTrain은 LLM의 학습 시간을 정확하게 예측하고 여러 개의 GPU를 사용할 때 얼마나 효율적으로 분산해 학습할 수 있을지 예측한다. 이는 대규모 AI 모델을 학습시킬 때 최적화 전략을 탐색하는 데 도움이 될 것으로 연구진은 예상하고 있다.
실제 다중 GPU 환경에서 LLM의 학습 시간 실측값과 vTrain의 예측값을 비교한 결과, 단일 노드(엔비디아 A100 8개)일 때 평균 절대 오차는 8.37%, 다중 노드(A100 최대 512개)일 때는 14.73%의 오차 범위를 보이며 비교적 정확한 예측 결과가 나왔다. 또 특정언어모델(MS·엔비디아의 MT-NLG)을 바탕으로 기존 학습 전략과 vTrain을 이용한 최적화 학습 전략을 비교한 결과, 기존 대비 GPU 사용률은 10% 향상되면서 학습 비용은 5% 절감할 수 있음이 확인됐다.
연구진은 이번에 개발한 기술과 1,500개 이상의 실제 학습 시간 측정 데이터를 연구자와 기업이 자유롭게 사용하도록 오픈소스로 공개했다. 유민수 교수는 “vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 학습 전략을 탐색했다”며 “이를 통해 기업들이 데이터센터 환경에서 최적의 분산학습 전략을 수립하고 초거대 AI 학습 비용을 효율적으로 절감할 수 있을 것”이라고 말했다.