1990년대 말에서 2000년대 초반까지 구글, 야후, 라이코스, 알타비스타, 네이버, 엠파스, 첫눈 등 수많은 검색 서비스들이 경쟁을 벌였다. 여기서 끝까지 살아남은 구글이 전 세계 시장을 평정했고, 국내는 네이버 천하가 됐다.
네이버는 어떻게 쟁쟁한 경쟁자들을 눌렀을까. 네이버가 검색 결과를 보기 편하게 제시했다는 등 여러 얘기들이 있지만 가장 결정적인 답은 따로 있다. 역설적이게도 디지털 기술이 아닌 인간의 손기술, '휴먼 터치'가 톡톡히 한몫했다. 네이버가 등장할 무렵 인터넷에는 한글 자료가 별로 없었다. 그렇다 보니 네이버뿐 아니라 구글, 야후 등에서 한글로 검색했을 때 대부분 결과를 보여주지 못했다. 보여줄 자료가 없었기 때문이다.
이를 해결하기 위해 네이버는 초창기 일부 검색에 대해 결과값을 수작업으로 입력했고, 좀 지나서 2002년 '지식인' 서비스를 도입했다. 즉 이용자들이 서로 묻고 대답하며 네이버에 데이터를 일일이 손으로 입력하게 만들어 부족한 한글 자료를 채웠다. 어찌 보면 네이버는 사람들의 검색 이용 행태를 명확하게 꿰뚫어 본 것일 수 있다.
사람들은 역설적이게도 검색 서비스에서 검색을 하지 않는다. 검색이 아닌 답을 기대한다. 예를 들어 '대한민국 수도'라는 글자가 들어간 인터넷 문서를 찾는 것이 아니라 대한민국 수도가 서울이라는 답을 알려주기를 원한다.
요즘 대화형 인공지능(AI) '챗GPT'가 인기를 끄는 것도 같은 이유다. 사람의 질문을 파악해 대답을 척척하는 챗GPT는 이용자 입장에서 검색 서비스보다 직관적이다. 대답의 오류 여부를 떠나 일단 사용하기 편하다. 그런 점에서 챗GPT는 구글, 네이버 등 검색 서비스에 분명 위협적 존재다.
그런데 챗GPT는 치명적인 단점이 있다. 스스로 검색을 하지 못한다. 챗GPT를 만든 오픈AI는 인터넷에서 45테라바이트(TB) 분량의 문서를 가져와 챗GPT를 학습시켰다. 45TB라면 꽤 많아 보이지만 요즘 개인용 컴퓨터(PC) 저장장치도 1TB가 흔하다. 쉽게 말해 PC 45대 분량의 문서로 공부한 셈이다. 챗GPT는 이 자료 안에서 매개변수(파라미터)를 조합해 대답을 만든다. 그렇다 보니 '이순신이 신라에서 태어난 조선시대 장군'이라는 황당한 답을 천연덕스럽게 내놓는다.
반면 네이버와 구글은 검색 로봇을 통해 20여 년간 축적한 엄청난 분량의 데이터를 갖고 있다. 챗GPT도 검색 기능을 붙여 학습 데이터를 늘리면 되지 않느냐고 반문할 수 있지만 검색과 AI는 또 다른 영역의 기술이 필요하다. 이순신에 대한 챗GPT의 대답만 놓고 보면 AI에서 작동방식(알고리즘) 못지않게 중요한 것이 데이터라는 것을 알 수 있다.
그런 점에서 네이버와 구글 등 검색 서비스들이 대화형 AI에 강한 자신감을 보이는 것은 당연하다. 검색과 대화형 AI를 결합하면 챗GPT보다 강력한 서비스가 될 수 있기 때문이다. 그렇기에 최근 구글의 대화형 AI '바드'가 오답을 내놓자 구글 주가가 떨어질 만큼 사람들의 기대도 크다. 물론 조만간 오픈AI에서 내놓겠다고 발표한 GPT 4.0은 GPT 3.5인 챗GPT보다 데이터와 매개변수가 훨씬 더 늘어난다.
그렇더라도 네이버와 구글의 데이터를 따라잡기는 쉽지 않아 보인다. 대화형 AI만큼은 검색 서비스들이 대화형으로 서비스를 바꾸고 얼마나 막강한 AI 알고리즘을 붙이느냐에 따라 좌우될 것이다. 결과가 궁금하면 네이버와 구글에서 '이순신'을 입력해 보면 된다. 최소한 신라에서 태어났다는 답은 나오지 않는다. 이는 곧 데이터의 힘이자 막강한 이용자의 힘이기도 하다.