카카오 불통, 복구에 필수적인 시스템 백업이 가동 안됐다

입력
2022.10.18 04:30
1면
구독

이원화 스위칭 하려면 기존 서버만큼 여벌 서버 갖춰야
비용 많이 들어 여벌 서버 충분하지 못하면 장애 발생


17일 오전 경기 성남시 카카오 판교 아지트 모습. 연합뉴스

17일 오전 경기 성남시 카카오 판교 아지트 모습. 연합뉴스


카카오의 각종 서비스가 화재 발생 48시간 이상 지나도록 정상화되지 않고 있는 이유는 데이터 백업과 함께 재난 후 복구에 필수적인 시스템 백업(이원화 스위칭)이 제대로 작동되지 않았던 탓으로 알려졌다. 불이 난 SK C&C의 경기 성남시 데이터센터(IDC)에 함께 서버를 보관한 네이버는 전국 여섯 곳의 IDC를 통해 시스템 백업(이원화 스위칭)이 제대로 가동돼 복구가 빨랐던 반면 카카오는 그렇지 못했다는 것이다.

17일 관련 업계에 따르면, 이원화 스위칭은 기존 전산 시스템이 제대로 돌아가지 않을 때 다른 곳에 있는 '쌍둥이' 시스템으로 빠르게 전환해 가동하는 것을 말한다. 똑같은 데이터를 하나 더 복사해 놓는 데이터 백업은 이중화 조치라 하며, 데이터를 사용하는 시스템을 하나 더 마련하는 것은 이원화 조치라 한다. 이중화는 데이터 백업, 이원화는 시스템 백업인 셈이다. 따라서 이원화 조치를 해놓으면 재난이 일어났을 때 A시스템이 마비돼도 쌍둥이라 할 수 있는 B시스템을 대신 가동할 수 있다. 업계에서는 이원화를 재난 복구용이라는 뜻의 DR(Disaster Recovery)로 부른다.

카카오 대란의 가장 큰 문제는 사고 발생 후 복구가 늦어진 것이다. 티스토리 등 일부 카카오 서비스는 만 이틀이 지나도록 정상으로 돌아오지 않고 있다. 컴퓨터(PC)용 티스토리 서비스는 접속이 안돼 모바일 페이지가 대신 나타난다.

이는 원 시스템도 복구되지 않고, 이원화 스위칭도 작동하지 않고 있다는 뜻이다. 한 카카오 개발자는 "판교 데이터센터에 보관된 서버만큼 다른 곳에 서버가 분산 배치돼야 사고 발생시 빠르게 전환되는데 그렇지 못했다"며 "10년 전부터 이원화를 위한 서버 분산 작업을 해왔지만 두 배의 서버를 마련하려면 워낙 돈이 많이 들어 한꺼번에 하기 힘들다"고 털어놓았다.

카카오는 이중화 백업이 잘돼 있어 데이터 유실 우려가 없다고 강조하면서도 이원화 스위칭 문제에 대해서는 설명을 못하고 있다. 카카오 측은 메인 데이터센터인 SK C&C 판교 데이터센터에 약 3만2,000대의 서버를 운영하고 있다. 이원화 스위칭이 제대로 작동하려면 같은 수의 서버를 다른 곳에 가동해야 한다. 카카오 관계자는 "판교 데이터센터 말고 백업 데이터센터를 어디에 몇 곳이나 운영하는지는 보안 사항이어서 밝힐 수 없다"면서도 "과연 몇 개 업체가 비상시에 대비해 서버를 두 배 이상 갖추고 있는지 의문"이라고 말했다.

하지만 불이 난 성남 데이터센터에 일부 서버를 보관한 네이버는 대부분 이원화 스위칭으로 서비스 장애를 빠르게 복구했다. 네이버는 화재 사고 당시 BTS(방탄소년단)의 부산 공연을 성남 데이터센터를 통해 네이버 나우, 제페토, 위버스 등으로 생중계했는데 끊어지지 않았다. 네이버 관계자는 "강원 춘천을 비롯해 여섯 군데 데이터센터를 통해 이원화 스위칭을 하고 있어 당일 문제가 없었다"며 "내년 세종시에 추가 데이터센터를 완공하면 일곱 곳에 이원화 시스템을 갖추게 된다"고 설명했다.



카카오가 내년 완공 예정인 안산 데이터센터 조감도. 카카오 제공

카카오가 내년 완공 예정인 안산 데이터센터 조감도. 카카오 제공


반면 카카오는 내년 경기 안산에 짓고 있는 데이터센터가 완공돼야 이원화 스위칭 미비 문제를 해결할 수 있을 전망이다. 카카오 관계자는 "안산 데이터센터는 12만 대 서버를 수용할 수 있는 규모"이며 "규모는 미정이나 경기 시흥에 제2 데이터센터도 착공 예정"이라고 말했다.

이런 상황에서 카카오는 데이터센터 장애에 대비한 모의 훈련도 하지 않았다는 주장이 나오고 있다. 또 다른 카카오 서비스 운영자는 "지금까지 데이터센터 장애에 대비한 모의 훈련을 한 적이 없다"며 "사고 전날인 금요일이 모두 휴무인 '놀금'이어서 쉬고 있다가 갑자기 비상 근무를 했는데 한번도 겪어보지 못한 일이어서 현장의 혼란이 컸다"고 전했다.

전문가들도 카카오의 복구 지연 원인을 이원화 스위칭 문제에서 찾고 있다. 모 데이터센터 관계자는 "복구에 시간이 오래 걸리는 것을 보면 데이터 백업은 잘돼 있지만 운영 시스템 이원화가 제대로 돼 있지 않은 것으로 보인다"며 "통신업체나 금융권 등은 이원화를 넘어 3중, 4중으로 백업 시스템을 갖고 있지만 다른 IT 업체들은 비용 때문에 쉽지 않을 것"이라고 강조했다.

최연진 IT전문기자

관련 이슈태그

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.