토끼를 본 적 없는 사람이 토끼 여러 마리와 고양이 한 마리가 함께 있는 사진을 보고 토끼에 대한 궁금증이 커지자, LG 초거대 인공지능(AI) 엑사원(EXAONE)이 이같이 텍스트로 설명해준다. LG AI연구원이 엑사원에 이번에는 이미지를 텍스트화하는 기술인 '이미지 캡셔닝' 기능을 입힌 것이다.
31일 LG그룹에 따르면 최근 대화형 AI 챗봇인 '챗GPT'가 딥러닝을 통해 스스로 언어를 생성·추론하게 돼 소설, 시, 논문, 연설문 등 광범위한 분야에서 놀라운 성과를 드러내는 것처럼, 이미지 캡셔닝 기술도 이미지 검색 분야에 혁신을 불어올 것으로 기대되는 분야다.
AI가 사물, 동물, 풍경 등 다양한 이미지를 보고, 기존 학습 데이터를 바탕으로 스스로 이해하고 유추한 결과를 텍스트로 설명해주면 인간의 실생활에 도움을 줄 수 있다.
예컨대 AI가 온라인에 올라오는 방대한 분량의 이미지 데이터에 자동으로 캡션과 키워드를 생성해 검색 편의성과 정확도를 높일 수도 있고, 의학 전문 데이터를 학습한 AI가 의학 영상을 분석해 전문가로 활약하는 식이다.
LG그룹 관계자는 "현재 엑사원은 이미지 캡셔닝 분야의 세계 최고 수준과 비교해도 열 배 이상 이미지를 텍스트화하는 속도가 빠르고, 정확도 역시 뒤처지지 않는다"고 설명했다.
머릿속에 언어와 이미지 사이의 양방향 테이터 생성을 처음 구현한 초거대 AI여서 여러 분야에 쓰이고 있다. ①디자이너의 머릿속에 맴도는 아이디어를 이미지로 바꾸는 디자인 플랫폼 구축에 나섰을 뿐만 아니라 ②혐오 표현 감지 기능을 추가해 소비자들이 상담 챗봇 등에서 혐오 및 차별 표현을 경험하지 않게 하는 기술도 개발 중이다.
또 ③환자별로 다양한 암세포 돌연변이가 사라질 수 있게 하는 신항원 개발에 합류했고 ④차세대 배터리인 리튬황 전지의 핵심 기술인 전해질을 개발하는 데 투입되는 등 사람이 풀지 못한 난제 해결사로도 나섰다.
LG AI연구원은 엑사원을 공동 연구하고 있는 서울대 AI대학원, 이미지 캡셔닝 AI의 상용화 서비스를 함께 준비하고 있는 셔터스톡과 4월 말까지 전 세계 AI 연구자를 대상으로 'LG 글로벌 AI 챌린지'를 개최한다.
세계적 업체들과 실력을 겨루는 동시에, 이미지 캡셔닝 시장 규모를 키우겠다는 발상에서 이번 대회를 준비했다. 이경무 서울대 AI대학원 석좌교수는 "이미지 캡셔닝은 영상에 나오는 객체들의 관계부터 상황과 문맥까지 이해해 인간의 언어로 표현하고 설명하게 하는 것"이라며 "AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 척도"라고 설명했다.
LG AI연구원은 또 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 'CVPR 2023'에서 '제로샷 이미지 캡셔닝 평가의 새로운 개척자들'을 주제로 워크숍을 연다. 구글, 마이크로소프트(MS) 등에서 AI 연구를 하는 전문가와 글로벌 석학들이 이미지 캡셔닝 기술 연구의 방향성과 확장성, AI 윤리 문제 등을 논의한다.
이 석좌교수는 "우리나라 AI 역량이 이미 세계적인 수준에 도달했음을 알리고 국제적 리더십을 강화하는 계기가 될 것"이라고 기대했다.