한국일보

보고 듣고 말하고 동영상 검색도 ‘척척’…사람 뺨치는 생성형 AI

입력: 2024.05.18 14:00

오픈AI, 인간처럼 실시간 대화 가능 모델 공개
구글, AI ‘제미나이’ 기반의 검색 서비스 선봬
AI와 소통 수단, 문자에서 음성으로 진화
[아로마스픽(93)]5.13~17

편집자주

4차 산업혁명 시대다. 시·공간의 한계를 초월한 초연결 지능형 사회 구현도 초읽기다. 이곳에서 공생할 인공지능(AI), 로봇(Robot), 메타버스(Metaverse), 자율주행(Auto vehicle/드론·무인차), 반도체(Semiconductor), 보안(Security) 등에 대한 주간 동향을 살펴봤다.

“오늘 발표 때문에 긴장이 좀 되는데··· 어떻게 해야 되나.”

“천천히 심호흡을 하는 게 좋아.”

가상의 시나리오 형태로 진행됐지만 어색한 모습을 찾아보긴 어려웠다. 회사 동료나 선·후배들 사이에서 나눌 법한 흔한 대화에 가까웠다. 이어 조언을 구한 남성이 익살스러운 표정으로 숨을 헐떡거리자, 이내 “그렇게 하면 도움이 안 된다”며 “더 천천히 숨을 내쉬는 게 좋다”는 추가 의견까지 내놨다. 지난 13일(현지시간) 생성형 인공지능(AI) ‘챗GPT’를 잉태시킨 오픈AI의 라이브 행사에서 개발자와 ‘GPT-4o’로 명명된 새 AI 모델이 연출한 모습이다. 유튜브에 26분 12초 분량으로 소개된 이 동영상에서 ‘GPT-4o’는 A4 용지에 간단한 수학 문제로 제시된 ‘3X+1=4’에서 X값을 ‘1’로 찾아주는 도우미 역할까지 매끄럽게 단계별로 안내했다.

생성형 AI의 진화 속도가 가파르다. 보고 들으면서 말하고 즉석 문제까지 풀어내는 순발력까지 장착하면서다. 여기에 사진과 동영상을 통한 인터넷 검색 시장 영역에도 진입, 생성형 AI의 영향력은 갈수록 확산되고 있다. 이슈 몰이는 마이크로소프트(MS)와 한 배를 탄 오픈AI에서 주도권을 확보한 가운데 후발주자인 구글의 추격전 양상으로 전개되고 있다.

오픈AI, 인간 고유의 시청각 기능 탑재한 ‘GPT-4o’ 모델 선봬

오픈AI에서 공개한 ‘GPT-4o’ 모델의 가장 큰 장점은 무엇보다 인간과 유사한 감각적인 성능을 탑재했다는 데 있다. 앞선 GPT 버전이 주로 문자 기반의 텍스트를 활용해 사용됐다면 이 모델은 이용자와 감각만으로도 쌍방향 커뮤니케이션이 가능하다. 카메라(눈)로 사물을 보고 스피커(귀)를 통해 소리도 듣는다. 사람처럼 말을 하면서도 실시간 대화도 할 수 있다는 측면에서 ‘스마트 음성 비서’로도 일컫는다. 개선된 시각과 청각 능력이 이식된 덕분이다. 텍스트를 입력한 후, 일정 시간이 지나서야 답변이 나왔던 기존 모델에 비해선 일취월장한 형태다. 오픈AI에 따르면 'GPT-4o'의 응답 시간은 최소 232밀리초(ms·1,000분의 1초), 평균 320밀리초다. 이는 인간의 응답시간과 비슷하다. 이전 모델인 GPT-3.5는 평균 2.8초, GPT-4가 응답에 5.4초가 걸렸던 시간에 비하면 한층 더 개선된 반응속도다. 대화 도중, 끼어들어도 대화는 끊어지지 않는다. 마치 감정과 표현력이 있는 것처럼 이용자의 요구에 다양한 목소리와 감정, 톤으로 바꿔가면서 들려주는 능력 또한 눈에 띈다. 오픈AI의 시연 영상에서도 출연자의 계속된 농담 섞인 질문에 유머까지 포함된 대화로 반응할 정도다. 지난 2013년에 개봉했던 영화 ‘그녀(her)’ 속에서 AI로 나온 ‘사만다’를 연상케 할 수준이다. 이 영화에서 AI는 스스로를 단순한 운영체제(OS)에서 벗어난 하나의 인격체로 소개한다. 작품 속 주인공이 AI와 사랑에 빠진다는 설정으로 제작된 이 영화의 시나리오가 현실 속에서도 구현된 모습이다. 이런 분위기를 감안이라도 한 듯 샘 올트먼 오픈AI 최고경영자(CEO)도 'GPT-4o' 공개 직후, 자신의 사회관계망서비스(SNS)인 엑스(X·옛 트위터)에 이 영화를 뜻하는 'her'(그녀)라고 적었다. 그는 "컴퓨터(PC)와 대화가 자연스럽게 느껴진 적은 없지만, 지금은 그렇지 않다"며 "그것은 빠르고, 똑똑하고, 재미있고, 자연스럽고, 도움이 된다"고 말했다. 아울러 "(AI 모델이) 영화에 나오는 AI처럼 느껴지고, 그것이 현실이라는 게 조금 놀랍다"며 "인간 수준의 반응 시간과 표현력에 도달하는 것은 큰 변화이다"라고 전했다. ‘GPT-4o’는 기존 ‘챗GPT’에 로그인한 회원에겐 무료로 지원된다.

구글, 생성형 AI 내장한 검색 기능 공개

생성형 AI로 무장시킨 구글 측의 야심작도 대중들의 눈과 귀를 사로잡긴 마찬가지였다. 14일 미국 캘리포니아 마운틴뷰에서 구글의 최대 연례 개발자 대회로 열렸던 ‘구글 I/O 2024’에선 자사 생성형 AI인 ‘제미나이’ 검색 엔진 기반의 ‘AI 개요’ 서비스가 소개됐다. 제미나이를 내장한 'AI 개요'에선 빠른 검색 결과 요약과 관련 링크도 제공받을 수 있다. 대화 형태의 자유로운 검색에도 당황한 기색이 없다. 까다로운 조건의 질문에도 최적의 답변이 지원된다. 실제 이날 구글 측에서 선보인 AI개요 시연 영상에선 ‘보스턴 비컨힐에서 걸어서 30분 거리에 있고 평점 4.1점 이상인 필라테스 스튜디오를 찾아달라’고 입력된 질문에 해당 조건을 충족시킨 결과들이 선별적으로 보였다.

동영상 검색 기능도 신선했다. 이날 구글 측에선 고장 난 턴테이블을 촬영한 후 ‘이걸 어떻게 고쳐야 하나?’란 질문을 ‘동영상 검색 기능’에 넣자, 해당 테이블의 브랜드에서부터 제품명과 수리 방법까지 텍스트로 보여줬다. 순다르 피차이 구글 CEO는 "제미나이 생태계에 상상 가능한 AI의 모든 것을 담았다"며 "이번 주부터 미국 내 모든 이용자에게 완전히 개편된 경험인 'AI 개요'를 시작한다는 것을 발표하게 돼 기쁘다"고 말했다. 검색 엔진과 생성형 AI의 결합과 관련, “구글 검색이 등장한 후 25년 만에 가장 큰 변화다”라고 자평한 구글은 연말까지 10억 명 이상의 사용자들에게 이 서비스를 제공할 방침이다.

구글은 또 제미나이와 음성 모델을 결합, 새로운 형태의 ‘프로젝트 아스트라’도 선보였다. 미래 AI 어시스턴트를 위한 구글의 비전으로 선보인 ‘프로젝트 아스트라’에 포함된 AI는 사람처럼 보고 들을 수 있고 음성으로 대화하면서 이용자의 개인 비서 역할까지 수행해준다. 구글 지메일과 구글 문서, 캘린더 등 구글 응용소프트웨어(앱)에서 개인정보를 가져와 이용자의 스케줄 알림과 계획까지 정리해준다. 이 비전을 위한 전 단계로 구글은 '제미나이 라이브'를 선보였다. 이 기능은 사람처럼 대화하고 이미지는 업로드를 통해 인식한다. 구글은 '제미나이 라이브'를 수개월 내에 출시하고 이후 실시간 시각과 청각 등 프로젝트 아스트라를 위한 기능도 추가할 예정이다. 구글 측은 "올해 행사를 통해 '제미나이 시대' 개막을 본격적으로 알릴 수 있게 됐다"며 "향후에도 제미나이 생태계 완성으로 AI 혁신을 가속화해 나갈 계획이다"고 강조했다.

허재경 선임기자