한국일보

구글도 난관 부딪힌 휴머노이드... 행동 학습한 신체화AI 구현이 관건

입력: 2024.10.18 04:30

16면

[휴머노이드 학습, 왜 챗GPT보다 어렵나]
강화학습, 모방학습, 엔드 투 엔드...
행동 데이터 모으기, 가르치기 난제
소프트웨어·하드웨어 간극도 좁혀야
"정형화한 공간에서 먼저 쓰일 전망"

편집자주

로봇은 인간을 얼마만큼 닮을 수 있을까. 한국일보는 아랍에미리트에서 열린 국제제어로봇시스템학회를 찾아 로봇 기술 현장의 목소리를 전하고, 인공지능을 만난 휴머노이드 로봇의 미래를 진단한다.

"잘 안 되고 있어요. 동작 데이터를 모으는 건 가능했지만, 아직 충분하지 않습니다. 센서 데이터를 받아서 추론하고, 행동으로 출력하는 인공지능(AI) 알고리즘을 개발하는 건 또 다른 얘기고요. 데이터와 알고리즘을 토대로 사람처럼 자유자재로 움직이게 만드는 로봇 하드웨어도 아직 없죠."

구글과 미국 버클리 캘리포니아대 주도로 진행 중인 RT-X 프로젝트에 참여하는 김범준 한국과학기술원(KAIST) 김재철AI대학원 교수는 이렇게 털어놓으며 고개를 내저었다. 구글이 야심 차게 시작한 이 프로젝트는 범용 로봇 제작에 필요한 일종의 '행동 데이터 사전'을 만드는 게 골자다. 여러 연구진이 물건 집어들기나 굴리기 등 일상의 동작들을 일일이 데이터화한 뒤 긁어모아 로봇을 학습시키면 사람처럼 행동할 수 있을 거란 구상이다. 하지만 기대만큼 속도가 나지 않고 있다.

AI 발전에도... 학습법은 여전히 미완

툭하면 쓰러지던 휴머노이드 로봇이 척척 걸어가고, 사람 말을 알아듣는 수준까지 온 건 올해 노벨물리학상의 영예를 안은 인공신경망, 머신러닝 같은 AI 기술의 영향이 컸다. 센서로 상황을 인지해 필요한 행동을 판단하는 걸 넘어, 그 행동을 잘 해내려면 어떻게 움직여야 하는지 스스로 답을 찾아낼 수 있게 됐다. 머잖아 로봇용 '신체화(임보디드·embodied) AI'가 완성될 거라고 전문가들은 예상한다. 신체화 AI는 현실 세계에서 사람, 사물, 환경 등과 상호작용하며 동작을 해내는 AI를 말한다.

신체화 AI의 완성은 쉽지 않다. 행동은 현실 세계에서 이뤄지기 때문에 더 고차원적인 학습이 필요하다. 비교적 진도가 많이 나간 건 '강화학습'을 이용한 보행이다. '넘어지지 말아야 한다', '왼발 오른발을 번갈아 움직여야 한다'는 식의 목표를 주고, 컴퓨터 시뮬레이션에서 목표를 달성하게끔 반복해서 훈련시키는 것이다. 다량의 병렬 계산이 가능한 컴퓨터를 이용하면 수천 가지 환경에서 동시에 시뮬레이션을 할 수 있어, 최적의 답인 '어디서든 걸을 수 있는 알고리즘'을 찾게 된다. 조백규 국민대 미래모빌리티학과 교수는 "이 알고리즘을 로봇에 심으면 인간의 개입 없이 경사나 계단 등 어느 환경에서든 걸을 수 있는 다리가 된다"고 설명했다.

그런데 같은 방법을 팔에 적용하는 건 쉽지 않다. 다리는 균형을 유지하며 넘어지지 않는 정도면 되는 일종의 정형화한 움직임이지만, 손과 팔은 더 많은 관절로 이뤄져 무수한 움직임이 가능하기 때문에 목표와 조건을 입력해 돌리는 시뮬레이션만으론 자연스럽게 구현하기 어렵다. 그래서 함께 이용되는 방법이 사람이 보여주는 행동을 로봇이 따라하게 하는 '모방학습'이다.

박재흥 서울대 융합과학기술대학원 교수 연구진이 개발 중인 휴머노이드 '도깨비(TOKABI)'는 모방학습이 적용됐다. 원격조정 기기를 사람이 착용한 채 팔·다리·손가락을 움직이면 이 데이터를 도깨비가 받아 학습하는 식이다. 현재 도깨비의 목표는 상자의 문을 열고 컵을 꺼낸 다음 음료가 담겨 있으면 사람에게 건네주고, 비어 있으면 쓰레기통에 버리는 동작을 사람과 소통하며 해내는 것이다. 지난해 두 손가락으로 달걀을 집어 그릇에 담던 테슬라의 휴머노이드 '옵티머스'도 모방학습을 기반으로 제작됐다고 알려졌다.

지금까지 이렇듯 각각 용도에 맞게 학습시키고 이를 연결해 신체화 AI를 구현하려는 시도가 주로 이뤄졌다면, 최근에는 '엔드 투 엔드(end-to-end) 신경망' 방식의 접근도 나왔다. 로봇이 '컵을 가져와'라는 지시를 받으면 지시 내용을 이해하는 것부터 행동으로 옮기는 단계까지 한 번에 해낼 수 있게 인공신경망을 구성하는 것이다. 그러려면 "각종 데이터를 무한정 쏟아부어 학습시켜야 해, 역시 쉽진 않다"고 임윤섭 한국과학기술연구원(KIST) 책임연구원은 설명했다.

언어 기반 설명, 이미지 생성 AI로 훈련도

신체화 AI의 완성도를 높이기 위해서는 단순한 움직임을 넘어 다양성과 정교함의 영역까지 도달해야 한다. 로봇에게 컵을 집어 옮기라고 시킬 때는 컵이라는 물체, '집기'와 '옮기기'라는 움직임 등을 사전에 학습시켜야 한다. 배운 것과 다르게 생긴 컵을 집게 한다거나, 컵이 아닌 휴대폰을 옮기게 한다거나, 집는 대신 굴리게 하는 응용은 쉽지 않다. 집을 대상이 계란처럼 부서지기 쉬울 땐 필요한 힘의 강도도 달라서 촉감이나 압력 등의 정보가 센서를 통해 미리 학습돼야 한다.

결국 휴머노이드가 이런 움직임을 현실에서 제대로 해내려면 모든 물건과 모든 움직임을 미리 배워야 한다는 결론에 도달하게 된다. 챗GPT 같은 생성형 AI를 만들 때보다 훨씬 방대하고 다양한 데이터가 확보돼야 하는 것이다. 구글의 RT-X 프로젝트가 맞닥뜨린 난관도 바로 이 대목이다.

연구자들은 그래서 데이터 투입에 새로운 방식으로 접근하는 시도를 시작했다. 휴머노이드가 사과를 가져오게 하기 위해 사과 사진 같은 시각 데이터를 수없이 학습시키는 것이 아니라, 언어를 기반으로 한 설명을 제공해 사과의 특성을 이해시켜 찾아내게 하는 식이다. 이렇게 하면 사과나 사과를 둘러싼 상황 변화에도 적절한 대응이 가능하다는 것이다. 영국의 로봇학습연구소는 이미지 생성 AI(스테이블 디퓨전)를 이용해 동작 데이터를 이미지로 만든 다음, 로봇이 그 이미지를 보고 행동을 학습하는 시스템 '제니마(Genima)'를 개발해 다음 달 독일에서 열리는 '로봇 학습 콘퍼런스' 때 발표할 예정이다. MIT 테크놀로지 리뷰에 따르면 제니마로 훈련된 로봇팔에게 옷걸이에 스카프 걸기, 노트북 집어 올리기 등을 시켜봤더니 평균 성공률이 64%였다.

아무리 많은 데이터를 모아 훈련시킨대도, 가상과 현실의 차이 때문에 휴머노이드가 언제나 완벽하게 작동할 가능성은 높지 않다. 오용환 KIST 책임연구원은 특히 "AI가 발달하면서 휴머노이드의 소프트웨어 측면에선 변화가 컸지만, 하드웨어는 변화를 따라가지 못하고 있다"는 점을 짚었다. 소프트웨어와 하드웨어 모두에서 가상과 현실의 간극을 줄이는 연구가 뒤따라야 휴머노이드와 사람의 격차도 줄어들 거란 얘기다.

기술 발전 속도를 감안하면 신체화 AI를 탑재한 휴머노이드의 미래는 대체로 긍정적이다. 다만 흔히 상상하듯 집사처럼 일상적인 일을 대신 해주는 휴머노이드 등장까지는 오래 걸릴 거란 전망이 우세하다. 가정이나 식당처럼 정형화해 있지 않고 개인의 특성이 묻어나는 공간에는 적용이 쉽지 않을 거란 예측이다. 김범준 교수는 "휴머노이드도 집보다는 물류센터나 공장처럼 개별 특성이 적은 곳에 먼저 적용될 것"이라고 내다봤다. 박해원 KAIST 기계공학과 교수는 "가격도 자동차보단 저렴해야 해 갈 길이 멀다"고 덧붙였다.

오지혜 기자 5g@hankookilbo.com