최근 세 차례 발생한 카카오톡 서비스 장애 원인은 업데이트 전 사전 테스트 실행이 이뤄지지 않았거나 미비했기 때문으로 나타났다. 과학기술정보통신부는 31일 카카오에 미흡 사항에 대한 시정조치 요구를 전달했다.
과기정통부는 이날 "13일과 20일, 21일에 발생한 카카오톡 서비스 장애의 원인 및 대응·복구 현황에 대한 카카오의 통신재난관리계획 이행 여부를 점검하고 통신재난관리심의위원회를 개최해 시정조치 요구 사항을 심의·의결했다"면서 "카카오에 1개월 이내 개선 조치 계획을 수립해 제출하고 3개월 이내 시정 결과를 제출하도록 할 계획"이라고 밝혔다.
과기정통부가 공개한 점검 결과에 따르면 13일 오후 1시 44분부터 50분까지 6분 동안 전체 이용자의 80%가 메시지 수발신 실패로 불편을 겪었다. 이는 데이터센터(IDC) 서버의 파일을 업데이트하던 중 기존 파일을 삭제하다 오류가 생겼기 때문으로 나타났다. 이날 카카오는 실제 작업을 진행하기 전 사전 테스트를 하지 않아 오류에 대비하지 못했다.
20일 오후 2시 52분~58분 6분 동안 발생한 장애 역시 전체 이용자의 80%가 오류를 겪었는데 이는 내부 시스템 기능 개선 작업 중 오류가 발생했기 때문이다. 이날 작업의 경우에는 사전 테스트를 했음에도 실제 카카오톡 운영 환경과 차이가 커서 오류에 대비하지 못한 것으로 나타났다. 21일 오전 8시 30분~9시 24분 54분 동안 발생한 장애는 20일에 발생한 장애를 해결하지 못한 상태에서 다른 서버에 프로그램을 업데이트하면서 생겼다.
과기정통부는 점검 결과를 바탕으로 ①사전 테스트 실시 대상 작업과 범위에 대한 구체적 내부 지침을 보완하고 사전 테스트 환경은 실제 환경과 유사하게 구성하도록 요구했다. 또 ②주요 작업에 대한 승인·통제가 가능하도록 작업 관리 전반을 체계화해야 한다고 밝혔다. 아울러 ③이용자가 장애 사실과 장애 복구 여부를 빠르게 확인할 수 있게 고지 채널과 고지 방법을 실효성 있게 개선할 필요가 있다고 밝혔다.
이종호 과기정통부 장관은 "국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다"며 "카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직 문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다"고 말했다.
카카오는 "작업 관리 및 감독이 미흡했다는 점검 결과를 겸허히 수용한다"면서 "앞으로 주요 작업에 대한 내부 관리·감독 프로세스를 재정비하고 강화할 계획"이라고 밝혔다.