빅데이터 시대를 맞이하기 위한 경험의 축적

입력
2021.09.10 04:30
25면


우리 사회 곳곳에서 데이터의 중요성은 갈수록 강조되고 있다. 데이터를 필요에 따라 적절하게 확보하여 활용할 수 있는 역량을 갖추는 것은 빅데이터 시대를 맞이하기 위한 시대적 소명이기도 하다. 하지만 데이터의 유용한 활용은 간단하지 않다. 개인정보와 관련해서는 식별데이터가 제공되지 않도록 조심해야 하고, 그 중에서도 건강에 관한 정보를 포함한 민감정보 유형에 대해서는 더 많은 주의가 필요하다. 우리나라는 작년에 관련 법을 크게 개정하여 과학적 연구를 위해서 가명처리된 개인정보의 활용을 허용하는 법제도를 마련했다.

법제도의 마련은 그 자체로 커다란 변화를 예고하는 것이지만 데이터 영역은 결국 현장 경험의 축적이 핵심이다. 수많은 세부사항에 대한 섬세한 고려가 필요하기 때문이다. 가명처리를 한다는 것은 단순히 데이터베이스에 포함된 이름과 같은 신원정보를 '가명'이라 불리는 다른 정보로 치환하는 것만을 의미하지 않는다. 재식별 가능성에 대한 면밀한 검토가 함께 진행된다. 가령 원본 데이터에 담긴 생년월일에 대해 위험성을 고려하여 일 단위 수치를 제거하거나 나아가 월 단위 수치 또한 제거하는 판단을 할 수도 있다. 한편, 분석 목적상 계절에 관한 정보가 필요하다면 이를 고려하여 데이터에 추가로 변형작업을 하는 것이 필요할 수도 있다. 이런 예를 통해 짐작할 수 있는 것처럼, 데이터에 대한 가명처리 및 이를 활용하는 과정은 현장에서의 많은 시행착오와 조율의 과정을 필요로 한다.

개인정보 보호와 활용 사이의 균형을 생각할 때, 활용도가 높아지면 그에 비례하여 보호가 덜 되고, 그 반대로 보호를 더 적극적으로 하면 활용도가 낮아지는 것으로 생각하는 경우가 있다. 그런 '제로섬' 상황은 데이터에 대한 이해와 경험이 없는 경우에 나타날 수 있다. 오히려 데이터 처리에 대한 이해도가 높아지고 경험이 축적되면, 데이터의 활용도를 높이는 동시에 데이터에 대한 충분한 보호가 이루어지는 '포지티브섬' 상황의 구현이 가능해진다. 포지티브섬 상황 구현을 위한 다양한 시도와 경험의 축적은 그래서 중요하다.

이런 맥락에서, 건강보험심사평가원이 보유하고 있는 의료데이터를 표본 추출하여 비식별 처리한 후 보험업계에 제공하는 최근의 시도가 주목받고 있다. 국민건강보험공단에 대해서도 데이터 제공 요청이 이루어지고 있다. 이런 작업은 무엇보다 데이터 처리를 위한 경험 축적을 염두에 두고 진행될 필요가 있다. 다른 한편, 이러한 경험이 건강보험의 민영화라든가 그 이외의 불필요한 이슈로 불거지지 않도록 주의해야 한다. 지금은 데이터 처리를 위한 경험과 노하우의 축적에 집중해야 할 때다.





고학수 서울대 법학전문대학원 교수