'텍스트로 명령하면 원하는 이미지를 뚝딱' 만들어주는 생성형 인공지능(AI) 서비스가 잇따라 출시되고 있다. 한국 기술기업이 텍스트 중심의 대규모언어모델(LLM) 개발에 집중하는 사이 미국 빅테크는 이미지, 영상 등으로 발을 넓혀 후발주자와 격차를 더 벌리는 모습이다.
25일 정보기술(IT) 업계에 따르면 이미지 생성형 AI 시장은 빅테크 간 삼파전 구도가 형성되고 있다.
구글이 15일 미국에서 출시한 '이마젠3(Imagen3)'가 대표 모델이다. 이마젠3는 이용자가 원하는 이미지를 글자로 설명하면 그에 맞는 이미지를 알아서 그려주는 '텍스트 투 이미지(text-to-image)' 기능을 적용했다.
특히 구글은 딥페이크(합성 이미지)나 폭력적이고 유해한 이미지 범람을 예방할 수 있도록 안전 기능 강화에 신경을 썼다. 이마젠3로 만든 이미지는 눈에는 보이지 않지만 '디지털 워터마크' 표시를 하도록 했고 테일러 스위프트와 같은 유명 인사들의 이미지는 만들지 못하게 설정해뒀다. 올해 초 구글의 생성형 AI서비스인 제미나이가 인종 차별 이미지를 생성하는 결함이 발견돼 망신을 샀는데 이런 부분도 개선했다는 게 구글의 설명이다.
오픈AI는 구글보다 앞선 2023년 10월에 '챗GPT'에 달리3(DALL-E 3)를 통합한 멀티모달 모델을 도입했다. 달리도 문자 명령어에 따라 이미지를 만들어주는 서비스로 이마젠3와 상당 부분 유사하다. 다른 이미지 생성AI와 비교하면 멀티모달(다양한 형태의 데이터를 분석하고 생성할 수 있는 시스템) 능력이 뛰어나 대화체로 원하는 그림을 요청하면 된다는 특성이 있다. 달리3도 이미지의 출처와 진위를 확인할 수 있는 워터마크를 붙이는 중이다.
일론 머스크가 세운 AI기업인 xAI도 AI 챗봇에 이미지 생성 기능을 결합한 '그록-2(Grok-2)'를 13일 선보였다. 독일 스타트업 블랙포레스트랩스의 이미지 생성 AI 모델을 적용해 챗봇인 그록에 텍스트를 집어넣으면 이미지를 만들도록 한 것. 다만 그록2는 생성형 AI로 만들었다는 걸 알리는 워터마크 표식 등 안전장치가 전혀 없다. 악의를 가진 사용자가 정교하게 가짜를 만들어도 제재가 어려워 스스로 논란을 불러일으킨다는 비판을 받을 정도다.
AI가 텍스트를 넘어 영상, 음성, 이미지 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 이른바 '멀티모달'로 진화하면서 국내 기업도 뒤늦게 기술 경쟁에 뛰어들고 있다. 네이버는 초거대 AI인 하이퍼클로바 출시 1년 만인 27일 멀티모달 AI를 접목해 대화형 AI 서비스 '클로바X'가 이미지를 보고 답변할 수 있는 기능을 담을 예정이다. 이제 클로바X에 텍스트 명령 없이 수학문제 사진만 보여줘도 알아서 분석하고 풀이할 수 있게 된 것. 하지만 빅테크 멀티모달 모델처럼 이미지를 직접 생성할 만큼 기능 수준이 고도화된 건 아니다.
카카오는 아예 이미지 생성 AI인 '칼로 AI' 서비스를 종료한 후 대화형 AI 플랫폼 개발로 방향을 틀었다. 빅테크가 멀티모달이나 범용인공지능(AGI) 기술 개발에 적극 투자하면서 다른 국가들과 기술 격차가 더 가파르게 벌어지고 있다고 보고 '카카오가 잘하는 것'에 집중하기로 했기 때문이다.
국내에선 AI 기술 진흥과 규제를 둘러싼 가이드 라인이 없어 국내 기업이 신기술 개발에 적극적으로 나서기 어렵다는 지적도 나온다. 세계 주요국은 AI 이용자 보호 관련 규제 체계를 논의하는 법을 속속 제정하고 있다. 특히 미국은 2월 '미국 AI안전연구소'를 세웠다. 미국 AI 기업의 기술 안전성을 강화해 글로벌 표준 기술로 만들겠다는 의도다. 하지만 국내에선 'AI 기본법' 제정 논의도 지지부진하다. IT 업계 관계자는 "AI가 고도화될수록 안전성 논란이 심화돼 고려해야 할 부분이 많아지는데 국내에선 규제 이슈가 정리되지 않아 사업자 입장에선 리스크가 있지 않느냐"고 말했다.