속보

단독

빅데이터, 잘못 쓰면 그냥 자료 더미다

입력
2022.03.30 00:00
26면

쏟아지는 빅데이터 해석·활용은 사람 몫
방법따라 결과 얼마든지 달라질 수 있어
데이터 이용 목표에 대한 통찰력이 선결

ⓒ게티이미지뱅크

ⓒ게티이미지뱅크

빅데이터 전성시대다. 기술 발전에 따라 매우 다양한 형태의 자료가 생산·축적되며 다양한 방식의 분석을 통해 과학적 관리, 운영, 나아가 신사업 창출까지 가능해지고 있다. 때문에 빅데이터는 이제 기업의 새로운 가치 창출 수단으로 여겨진다. 여기에 인공지능(AI)까지 연결되기도 한다.

그러나 한계는 있다. '아직까지는' 데이터 분석 지표와 모형, 방법론 및 결과를 선택하고 해석하고 활용하는 의사 결정은 상당 부분 인간이 주관적으로 해야 한다. 같은 자료에 대해서도 모형과 방법론은 달라질 수 있고, 그에 따라 결과도 달라진다. 빅데이터는 기본적으로 과거와 현재의 패턴을 찾아내는 것이니, 미래 환경이 크게 바뀐다면 활용성이 떨어질 수 있다. 분석 목적에 맞는 지표(변수)를 적절하게 만들어 내는 것도 쉽지는 않다. 때문에 분석하고자 하는 시스템에 대한 이해와 통찰력이 무엇보다 중요하다.

정부가 코로나 2차 백신 접종을 독려하던 작년 하반기, 나는 우리나라에서 예방률과 같은 백신의 보호 효과 추이가 왜 제대로 발표되지 않는지 궁금했다.(나는 이 지표가 매우 중요했다고 생각한다). 대신 돌파감염률(돌파감염/총감염)이 60~70% 이상이라는 보도가 쏟아졌고 이로 인해 마치 백신이 별 효과가 없는 것처럼 비춰지기도 했다.

야구에 세이버메트릭스(sabermetrics)라는 것이 있다. 기존에 감에 의존하던 야구단과 경기 운영에, 통계에 기초한 과학적 분석을 사용하는 것을 말한다. 이제는 미국 메이저리그뿐 아니라 한국 프로야구 모든 구단이 통계 분석을 활용하고 있다. 주로 많이 활용하는 통계는 OPS, wOBA, WAR, OAA 같은 '2차 통계'들이다. 2차 통계는 야구의 본질에 대한 이해와 통찰력을 통해 등장했다.

하지만 지표별 한계와 중복, 상호 모순도 존재한다. 2000년대 초반에 세이버메트릭스를 선도적으로 도입한 미국 오클랜드 팀의 빌리 빈 단장 이야기를 담은 '머니볼' (마이클 루이스, 한스미디어)의 마무리 부분에 이런 이야기가 있다. '이러한 통계 분석은 정규 시즌에는 잘 적용되지만 상황이 완전히 다른 포스트 시즌에는 무력하다.' 통계 분석은 다른 스포츠에도 확산되고 있다. 다만 아직 야구만큼 적절한 지표(변수)가 양산되는 것은 아니다.

이처럼 빅테이터는 가능성은 무궁무진하지만 뚜렷한 한계도 있다. 무엇보다 분석 시스템에 대한 깊은 이해를 요구한다. 많은 사람들이 이야기하듯, 빅데이터는 기업의 효율과 가치를 향상시키기 위한 수단이지 목적이 될 수 없다. 통계 전문가, AI 전문가, 소프트웨어 전문가뿐만 아니라 해당 분야의 시스템에 대한 이해를 갖춘 전문가의 통찰력이 융합되어야 제대로 된 활용과 혁신이 이루어진다.

데이터의 공유를 목적으로 하는 '데이터 댐' 사업을 시작한 지 2년이 지나간다. 이를 자세하게 분석 평가할 능력은 아직 내게 없다. 하지만 두 가지가 마음에 걸린다. 하나는 최근 부정경쟁방지법 개정(2022. 4. 20. 시행) 등에 따라 데이터의 부정 사용을 막는 보호 제도가 강화되는 상황에서, 과연 많은 데이터를 축적한 민간기업들이 적극적으로 참여할 유인이 있는가 하는 문제이다. 또 하나는 활용 방향을 고려하지 않고 데이터의 수집, 지표(변수), 형식 등이 진전되기는 어렵지 않은가 하는 점이다. 잘못하면 그저 방대하기만 하고, 너무 많고 불필요한 자료를 혼란스럽게 모아놓는 것에 끝날 수도 있기 때문이다.


김연배 서울대 기술경영경제정책과정 교수

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.