오픈AI가 생성형 인공지능(AI) 챗GPT를 선보인 이래 세계 AI산업을 주도하고 있는 글로벌 스타는 오픈AI나 메타(구 페이스북), 구글 같은 빅테크 기업들뿐만 아니다. 이미 엔비디아 같은 AI 반도체 주력 기업은 단숨에 MS와 애플의 뒤를 바짝 쫓는 슈퍼기업으로 부상했고, TSMC나 삼성전자, SK하이닉스도 거대한 AI 반도체 특수를 맞게 된 게 현실이다.
각국 기술 벤처기업들의 도전도 눈부시다. 당장 국내에서만도 엔비디아 추격자를 자처하고 나선 AI 반도체 팹리스(시스템반도체 설계ㆍ개발) 기업 ‘리벨리온’은 아직 상장 전임에도 기업가치 1조 원에 육박한 것으로 평가된다. 생성형AI 응용서비스 분야에서도 스타트업인 ‘업스테이지’가 급부상 중인 블루칩 중의 하나로 꼽힌다.
업스테이지의 AI 기술력은 단순히 소스코드가 공개된 글로벌 빅테크 기업들의 거대 AI 모델을 활용해 특정 분야에서 좀 더 잘 작동하도록 미세조정(파인튜닝)하는 정도를 넘어선다. 거대 AI의 공개된 알고리즘 등을 활용하되, 보다 진화한 정보 인식과 분석, 판단과 행동이 가능한 자체 생성형AI 모델을 개발하는 데까지 이르렀다. 업스테이지가 자체 개발한 AI모델 ‘솔라(Solar)’는 지난해 세계 개방형 AI 모델 기능평가에서 오픈AI의 ‘GPT 3.5’와 메타의 ‘라마2’ 등을 누르고 1위를 차지했을 정도다. 이 같은 기술력에 주목한 마크 저커버그 페이스북 최고경영자(CEO)는 최근 방한에서 다른 국내 스타트업 4개사와 함께 업스테이지를 만나 협력방안을 별도 논의하기도 했다.
업스테이지의 권순일 사업총괄 부사장으로부터 국내 AI 스타트업 선도 기업으로서 기술 현황과 AI 응용서비스 계획, 사업 비전 등을 듣는다.
-업스테이지는 마크 저커버그 미국 메타 최고경영자가 최근 방한 때 따로 만난 5개 국내 스타트업 중 인공지능(AI) 모델 개발사로서 주목받았다. 저커버그가 왜 업스테이지를 만났는가.
“메타는 메타버스 사업을 넘어 AI개발에도 오픈AI 못지않게 힘을 쏟고 있다. 이미 초거대언어모델(LLM) ‘라마2(LLaMA2)’를 개발했으며, 그걸 기반으로 지난해 9월 챗GPT와 경쟁하는 챗봇 ‘메타AI’를 선보이기도 했을 정도다. 하지만 어떤 AI모델이라도 다양한 분야에서 많이 쓰일수록 데이터양과 인식ㆍ분석ㆍ판단ㆍ행위과정이 축적되고, 더 진화할 수 있다. 따라서 소스를 대거 개방하고 세계 각국에서 더 널리 활용되도록 촉진할 필요가 생긴다. 그런 맥락에서 '라마2'를 개량한 자체 개발 AI모델 ‘솔라’로 국제적으로 호평을 얻은 업스테이지를 만난 것으로 이해한다.”
-AI 모델 개발은 오픈AI나 메타, 구글 같은 빅테크 기업 정도의 자본력과 규모가 있어야 가능한 것 아닌가. 아직 스타트업 단계의 기업인 업스테이지가 ‘솔라’라는 자체 거대 AI모델을 개발했다는 얘기가 다소 혼란스럽다.
“보편적 능력을 갖춘 초거대AI 모델을 완전히 독자적으로 개발하는 데는 수조~수백조 원의 막대한 비용이 든다. 당연히 우리로서는 오픈AI나 메타, 구글 같은 글로벌 빅테크 기업과 같은 방식으로 초거대AI를 개발하는 건 불가능하다. 다만 AI 확산과 진화를 위해 초거대 AI 모델들이 상당 수준 소스를 공개하는 오픈소스 정책을 채택하고 있기 때문에 실력을 갖춘 스타트업이라면 글로벌 플레이어들의 초거대AI의 기술적 구조(아키텍처)나 알고리즘 등을 참고하고, 자체 알고리즘을 부가해 보다 개량된 AI 모델을 만들어낼 수 있게 된 것이다. ‘솔라’ 역시 그런 개량과 자체 사전학습을 적용해 오픈AI나 메타, 중국 알리바바의 ‘큐원’ 등보다 우수한 성능을 가진 것으로 평가됐다.”
-‘솔라’ 자체 개발을 위해 글로벌 AI모델을 ‘참고했다’는 말이 잘 이해되지 않는다. 업스테이지가 ‘솔라’ 개발을 하는데 있어서 글로벌 AI모델을 기술적으로 어떻게 활용했다는 얘긴가.
“’솔라’는 메타의 ‘라마2’, 프랑스 미스트랄AI의 ‘미스트랄(Mistral)7B’ 등 글로벌AI 모델 등의 알고리즘과 구성(가중치) 등을 따르면서도, 레이어를 추가해 깊이를 더하는 ‘DUS(Depth-Up Scaling)’라는 기법을 적용해 만든 자체 사전학습(Pre-training) 모델이다. 요컨대 ‘솔라’는 업스테이지가 모델 아키텍처와 데이터 구축, 학습을 직접 진행하여 업스테이지만의 개성적 방식으로 데이터와 정보를 인식하고 학습하는 업스테이지표 AI란 얘기다. 단순 파인튜닝을 넘어 기반(파운데이션) 모델의 아키텍처, 즉 AI가 인식하고 학습하는 사전학습 단계를 손댈 수 있어야 자체 모델이랄 수 있고, 성능의 진화 등을 꾀할 수 있다.
다만 지금은 완전히 독자적인 AI 모델을 만들기 위해 처음부터 끝까지 모두 우리가 만들어야 할 필요가 없다. 현재 LLM 등 AI 생태계의 기술 성숙도가 그렇게 할 필요가 없는 수준으로 올라왔기 때문이다. 예컨대 좋은 품종의 콩들이 이미 시장에 많이 나와 있다면, 굳이 맛있는 된장국을 끓이는데 필요한 된장을 만들겠다고 직접 농사해 콩을 재배할 필요가 없는 것과 마찬가지로, AI모델에도 준용해 쓸 수 있는 좋은 알고리즘과 아키텍처가 많이 나와 있다는 얘기다.”
-‘솔라’가 여타 글로벌 빅테크 기업들의 초거대 AI(LLM)와 비교해 우위를 확보한 특장점은.
“솔라는 빅테크 모델에 필적하는 성능을 갖췄으면서도 경량화된 모델로, GPT-4 대비 12배 빠른 속도를 자랑하면서 분리망 구축형, 온디바이스AI 등 다양한 제공 여건에서 적용 가능하다는 점이 장점이다. 즉, 빅테크의 거대 모델에 대비해 작은 사이즈로 도입 비용과 시간은 절감하면서, 기업 맞춤형으로 구축하거나 API 등을 통해 클라우드에서도 손쉽게 활용이 가능하다. 이에 따라 ‘솔라’는 다양한 산업 및 기업에 맞춤형으로, 즉 ‘목적별 특화(purpose-trained)’ 생성형 AI 서비스를 제공할 수 있다.”
-최근 '로톡'으로 유명한 IT 법률서비스 기업 '로앤컴퍼니'와 한국어 및 한국 법률에 특화된 거대언어모델(LLM) 인공지능(AI) ‘솔라리걸(Solar-Legal)' 공동 개발을 위한 업무 협약을 체결했다. 그것도 일종의 목적별 특화 생성형AI 서비스인가.
“’솔라리걸’은 IT 법률서비스 기업 ‘로앤컴퍼니’가 앞으로 실무에 적용할 AI 법률서비스 솔루션이라고 할 수 있다. 예컨대 변호사가 특정 사건을 수임하면 그 사건을 숙지하고 어떻게 변론할지를 기획해야 할 것이다. 그 경우, 변호사가 ‘솔라리걸’에 사건 변론 방안에 대한 조언을 구하면 ‘솔라리걸’이 상식과 방대한 법령, 판례 등을 참고해 변론 기획안을 제시해 주는 식이다. 변호사가 수작업으로 해왔던 방대한 사건 조사 작업량과 소요시간이 획기적으로 절감될 것이다.
솔라리걸은 성능, 효율, 보안을 모두 갖춘 법률 특화 언어모델로, 고객이 원하는 다양한 제공 방식 (클라우드, 구축형 온프레미스 등)에 적용할 수 있는 목적별 특화 생성형AI 서비스의 전형인 셈이다.”
-공동개발이라고 했는데, 양사는 '솔라리걸' 개발에서 각각 어떤 역할과 업무를 맡는가. 수익구조는 각각 어떻게 되나.
“업스테이지는 ‘솔라’를 기반 모델로 활용하여 법률 도메인 특화 모델과 로앤컴퍼니의 서비스에 최적화된 별도의 모델을 개발할 예정이다. 로앤컴퍼니는 모델 성능 고도화를 위해 필요한 법률 전문 데이터, 도메인 전문 지식, 그리고 서비스의 기획적인 요소를 제공한다. 개발비용은 양사가 공동으로 투자하며, 완성된 모델과 서비스로부터 발생하는 매출은 사전에 합의된 비율에 따라 분배할 계획이다.”
-업스테이지는 법률 AI서비스 외에도 다양한 분야에서 Al 응용서비스 사업을 벌이고 있는 것으로 알고 있다. 진행 중인 주요 사업을 소개한다면.
“업스테이지는 B2B AI 사업에 주력하고 있다. 크게 3가지 영역이다. 먼저 ‘솔라’로 대표되는 LLM 사업이다. 기업 맞춤형으로 구축할 수 있어 데이터 보안을 극대화하고 오답을 생성하는 ‘AI 환각(할루시네이션)’을 방지하는 ‘프라이빗(Private) LLM’으로, 최첨단 생성형 AI기술을 기업이 편리하게 사용할 수 있도록 지원한다. 다음으로 비정형 데이터를 정형화시켜 기업 문서의 디지털화를 지원하는 AI OCR(광학문자인식) 기술을 활용, 업무 자동화를 실현해주는 ‘다큐멘트(Document AI)’ 사업이 있다. 마지막으로 교육프로그램 ‘에듀스테이지’를 통한 교육 콘텐츠 사업도 진행하고 있다.”
-‘솔라’는 별도로 한국어 튜닝 데이터가 학습됐다고 하는데 그 의미는.
“’솔라’는 자체 개발 과정에서 학습 데이터에 한국어 데이터가 포함되어 한국 지식 해석 수준과 한국어가 훨씬 자연스럽다. 모델 성능 고도화를 위해서는 기반 모델뿐만 아니라, 학습 데이터가 중요하게 작용한다. 또 데이터는 양도 중요하지만 퀄리티가 더욱 중요한데, 업스테이지는 양질의 데이터를 선별(curate)하고 처리하는 독보적인 데이터 전처리 기술을 보유하고 있다. 이에 세계 1위의 LLM 모델링과 자체적으로 구축한 양질의 한국어 데이터셋이 결합되어 성능을 최고로 끌어올릴 수 있었다.”
-우리나라 생성형AI 수준을 오픈AI나 구글, 메타 등 글로벌 빅데이터 기업들과 비교한다면.
“전 세계에 파운데이션 모델을 만들 수 있는 기술력을 갖추고 실제로 만든 나라들은 극소수인데, 그중에 한국이 있다. 이는 상위 우수 인재들의 역량이 글로벌 수준과 비견할 만하기 때문에 가능한 성과였다고 생각한다. 다만, 국가별 시장 환경 차이에서 기인하는 아쉬운 점들은 있다. 국가 차원에서의 지원, 신규 시도를 다양하게 할 수 있는 투자 환경, 질적 인력의 양적 수준 등에서 미국과 비교하였을 때 많이 부족한 실정이다. 이 때문에 생성형 AI 생태계가 구축되는 속도가 다소 뒤처진 느낌이 있다.”
-국내에서도 LG AI연구원이나 카카오브레인, 네이버 등에 제각각 초거대AI를 출시하며 Al 응용서비스 사업도 활발히 모색하고 있는 것으로 안다. 업스테이지 같은 스타트업이 이들과 끝까지 경쟁할 수 있다고 보는가.
“대기업과 스타트업이 각각 잘할 수 있는 영역이 차별적으로 존재한다고 본다. 지금은 불분명한 그레이존(gray zone)들이 있지만, 결국에는 각자 잘할 수 있는 부분에서 독자적으로 성장할 수 있을 것이라 생각한다. 업스테이지는 이미 글로벌 무대에서도 결코 뒤처지지 않는 기술력을 증명했고, 다양한 산업군의 국내 대표 기업들과 협업 실적도 탄탄히 쌓으면서 나름의 영역을 일구고 있다.”
-업스테이지는 글로벌 비즈니스 의지가 강한 것으로 안다. 어떤 시장을 개발하려고 하나.
“현재 미국, 일본 시장을 메인 타깃으로 보고 있다. 이를 위해 미국 법인을 최근 공식 설립하고 본격적인 해외 시장 진출을 위한 채비를 마쳤다. 미국에서는 현지 및 글로벌 엔터프라이즈 기업을 대상으로 기업 특화 LLM을 제공, 다양한 협력 기회를 다각도로 발굴할 계획이다. 미국, 일본 외에는 언어모델에서 언어적으로 아쉬움이 있는 국가들을 대상으로, 그들의 언어에 잘 대응하는 모델을 이전하는 사업도 진행 중이다.”