눈·귀·입 생긴 챗GPT... 사람처럼 보고, 듣고, 이해하고, 말한다

눈·귀·입 생긴 챗GPT... 사람처럼 보고, 듣고, 이해하고, 말한다

입력
2023.09.26 11:10
수정
2023.09.26 14:51
구독

아마존 '말하는 AI 비서' 공개 5일 만에
오픈AI, 챗GPT에 눈·귀·입 전격 추가

챗GPT 개발사인 오픈AI가 25일 "이제 챗GPT는 보고, 듣고, 말할 수 있다"며 챗GPT에 음성 대화, 이미지 인식 기능을 추가했다고 발표했다. 오픈AI 홈페이지 캡처

지난해 11월 등장 이후 전 세계에 생성 인공지능(AI) 열풍을 부른 챗GPT가 세 단계의 진화를 하게 됐다. 이용자와 문자로만 소통이 가능했던 종전과 달리, 앞으로는 음성으로 대화하고 이미지를 인식할 수도 있게 된 것이다. 사람으로 치면 입과 귀, 눈이 생긴 셈이다.

챗GPT 개발사인 오픈AI는 25일(현지시간) "이제 챗GPT는 보고, 듣고, 말할 수 있다"며 "음성 대화·이미지 인식 기능을 통해 생활 속에서 챗GPT를 더 다양하게 활용할 수 있을 것"이라고 밝혔다. 여행 중 랜드마크 사진을 찍어 그에 관해 대화하거나, 냉장고 속 식료품 사진을 찍은 뒤 "저녁 식사로 무엇을 만들 수 있을까" 같은 질문을 하는 게 가능해질 것이라고 오픈AI는 덧붙였다. 새 기능은 앞으로 2주 내에 유료 가입자들이 먼저 이용할 수 있고, 이후 모든 이용자들에게 제공된다.

새로워진 챗GPT는 이미지를 인식하고 그와 관련한 질문에 답변할 수 있다. 이용자가 이미지를 업로드한 다음 '이게 그 레버냐'라고 묻자 챗GPT가 "레버가 아니라 볼트"라고 답하고 있다. 오픈AI 홈페이지 캡처


새로워진 챗GPT, 소설 지어 음성으로 들려주기도

오픈AI는 홈페이지를 통해 실사용 예시도 공개했다. 이용자가 음성으로 "래리라는 이름의 해바라기 고슴도치에 대한 이야기를 들려 줘"라고 지시하자, 챗GPT는 "래리는 다른 고슴도치와는 다른 독특한 친구였습니다. 그는 가시 대신 밝은 꽃잎을 갖고 있었습니다"로 시작하는 이야기를 창작해서 음성으로 들려줬다. "래리의 집은 어떻게 생겼느냐"라는 후속 질문에도 챗GPT는 음성으로 답했다. 진짜 사람인 것처럼 인간이 말하는 것을 알아듣고 대화를 이어갈 수 있게 된 이다. 챗GPT의 음성 기능은 애플 '시리' 같은 다른 음성 비서와 비슷해 보일 수 있지만, 대규모 언어 모델을 기반으로 콘텐츠의 '실시간 생성'도 할 수 있다는 점에서 근본적으로 차이가 있다.

새로워진 챗GPT는 이미지도 꽤 정확하게 이해하는 듯했다. 시연 영상에서 한 이용자가 자전거 사진을 찍어 올리고 "안장 높이를 낮추는 것을 도와 줘"라고 주문하자, 챗GPT는 높이를 낮추는 방법을 단계별로 설명해 줬다. 이어 이용자가 자전거의 안장 고정장치 쪽을 촬영해 동그라미 표시를 한 다음 "이게 레버냐"라고 질문하니 챗GPT는 "이건 레버가 아니라 볼트"라고 답했다. 다만 현재로선 이미지만 인식할 수 있다. 영상을 인식해 묻고 답하는 건 아직 불가능한 상태다.

이용자가 '내가 가장 좋아하는 풋볼 팀 상황을 알려 달라'고 주문하자, 알렉사가 답변하는 모습. 아마존이 20일 공개한 새 알렉사는 팀 이름을 구체적으로 알려주지 않아도 이미 알고 있는 이용자 데이터를 바탕으로 답할 수 있다. 유튜브 캡처


말하는 AI로 진화... 위험성 우려에도 경쟁 과열 양상

AI 챗봇은 문자 대화에서 음성 대화로 능력을 확대하고 있다. 미국 스마트홈 1위 업체인 아마존도 지난 20일 생성 AI 기반의 음성 비서 알렉사 새 버전을 공개했다. 과거 알렉사는 이용자의 명령을 듣고 수행하거나 날씨 확인 등 간단한 대화만 할 수 있었으나, 생성 AI가 결합되면서 대화다운 대화가 가능해졌다고 아마존은 자신했다. "우리 축구팀 어제 어떻게 됐느냐"라고만 질문해도 이용자가 응원하는 팀의 경기 결과를 알려주는 식이다. 미국 뉴욕타임스는 "시각장애가 있는 사람 등에게 유용할 것"이라고 전했다.

이 같은 진화는 챗GPT가 세상에 나온 지 불과 1년도 되지 않아 이뤄진 것이다. 너무 빠른 발전 속도에 대한 경고가 잇따르지만, AI 업체들의 개발 경쟁은 더 과열되는 양상이다. 오픈AI는 올해 3월 이미지 인식이 가능한 언어모델 GPT-4를 공개했는데, 대중에게 제공할지는 신중하게 결정하겠다고 밝혔다. 안면 데이터 복제 등에 악용될 가능성이 없지 않다는 이유였다. 그러나 6개월 만에 결국 공개를 결정했다.

실리콘밸리= 이서희 특파원
세상을 보는 균형, 한국일보 Copyright © Hankookilbo

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.

중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.