'카카오 대란'의 재구성…배터리 1개에서 튄 불꽃이 어떻게 일상 멈췄나
화재 발생 약 100분만에 데이터센터 전원 전체 차단
IDC 운영 책임은 1차적으로 SK에…먹통 장기화 카카오 책임론도
- 정은지 기자
(서울=뉴스1) 정은지 기자 = 지난 15일 판교 데이터센터 화재에 따른 정전사고가 촉발한 '카카오 먹통' 사태로 온 나라가 시끄럽다.
현재 밝혀진 화재의 시작은 '배터리'. 지난 16일과 17일 진행된 합동감식 결과에 따르면 지하 3층 전기실 내 배터리 가운데 1개에서 스파크가 일어난 뒤 불이 시작됐다.
1차 원인은 SK㈜ C&C의 경기 성남시 판교 데이터센터 화재다. 하지만 각종 일상 편의 서비스를 제공하고 있는 '플랫폼 골리앗' 카카오의 미숙한 재해복구 능력이 사태를 키웠다.
이번 사고와 관련, 데이터센터 운영사인 SK C&C는 시설 운영에 대한 책임에서, 카카오는 정전에 따라 먹통 장기화를 촉발한 점에서 지적을 피하기 어려워 보인다.
◇ 배터리 1개의 불꽃, 100분만에 일상을 멈추다
19일 뉴스1 취재를 종합하면 '카카오 대란'을 촉발한 화재는 15일 오후 3시19분 경기 성남시 분당구 소재 SK 판교 데이터센터 A동 지하 3층 전기실에서 발생했다. 이때 발생한 불로 5개의 랙(선반)으로 이뤄진 배터리 1개가 모두 타버린 것으로 알려졌다.
전기실에서 시작된 화재가 발생한 지 약 20분만인 3시40분께 카카오와 연계된 일부 서버에 전기 공급이 중단됐고, 이때부터 카카오의 대부분 서비스에 오류가 생기기 시작한다. SK 측이 소방당국에 신고한 시점은 3시33분께 이뤄진 것으로 알려진다.
현장에 출동한 소방당국은 4시52분께 '소화약재로 진압이 어려워 물을 사용하겠다'며 전력 차단을 요청했고, 이때 전체 전원이 차단되면서 카카오 등 모든 서버 기능이 중단됐다. 배터리에서 시작한 불이 카카오 전체 서비스를 멈추는 데 걸린 시간은 100분도 채 걸리지 않은 것. 전력이 차단된 후 SK C&C는 무정전전원장치(UPS)를 가동하고 일정 시간 동안 전력을 공급했다.
이후 초진이 이뤄진 시점은 오후 5시46분께다. 그러나 잔화정리 및 배연 작업에 따라 완진은 같은 날 오후 11시46분께 이뤄졌다.
불길은 약 8시간만에 완전히 잡혔지만 카카오 서비스가 상당 부분 정상화되기까지는 약 30시간이 걸렸다. 특히 사고가 발생한 지 나흘째인 18일까지도 메일 등 일부 서비스는 완전히 복구가 되지 않으며 이용자들은 불편함을 호소했다.
◇ 데이터센터 화재, SK C&C 초기 대응 적절했나
이번 화재가 발생한 SK C&C 측은 이번 사고가 '불의의 사고'라고 규정한다. 미처 예상하지 않았던 사고가 발생을 했고, 절차에 따라 대응했다는 입장이다.
그럼에도 데이터센터 운영사인 SK C&C가 이번 사고 책임에서 자유로울 순 없을 것이라는 지적이다.
한 전문가는 "카카오톡 장애를 촉발한 이번 사고와 관련, 1차적으로는 초기에 문제가 발생한 IDC의 내부 관리에 대한 논의가 이뤄져야 할 것"이라고 말했다.
SK C&C가 소방당국에 처음으로 신고한 시간은 화재가 발생한 지 약 14분이 지난 오후 3시33분께다. 초동 대처가 미흡한 것이 지적이 나올 수 있는 대목이다.
여기에 화재 진압 시설이 제대로 마련됐는지 여부도 쟁점이 될 것으로 보인다. 데이터센터를 설계할 때는 기본적으로 소방설비를 적용하기 때문에 화재가 발생할 경우 이를 진압할 수 있는 가스가 나온다.
이에 대해 이종호 과학기술정보통신부 장관도 "(IDC에) 이산화탄소로 불을 끄는 장치가 있었는데, 전문가가 판단해야겠지만 화재를 진압하기에 좀 부족해 보이지 않았나 하는 부분이 있다"고 답했다.
발화 위험이 있는 리튬이온 이차전지 배터리를 전기실에 사용한 것도 논란이다. 기술의 발전으로 연축전지에서 리튬이온으로 UPS가 바뀌었지만 UPS 방호법령 등이 기존 연축전지 수준에 머물러 있으면서 재난대응에 허점이 드러난 것이다.
윤두현 국민의힘 의원은 전날 과방위 국감에서 "리튬 배터리에 불이 나면 끄기 어렵다. 특별한 진화방법이 필요하다"며 "SK C&C에 있는 배터리에서 스파크 일어나면서 불이 났다. 리튬 배터리 화재를 진압하기 위한 특수장치가 되어 있는지 과기정통부가 봐야 한다"고 말했다.
현 방호법령 상황에서는 SK C&C가 불을 끄기 위해 서비스 다운을 의미하는 '전체 전원 차단'이라는 초강수를 써도 법적으로는 문제가 없다. 전원 차단은 카카오 서비스 다운으로 이어졌고 전국민은 '카오스'에 빠졌다.
SK C&C 관계자는 "5월 소방시설 종합 점검과 주요한 소방 작동을 점검했다 화재 발생하자마자 경보 울림과 함께 경보 단계에 따라 자체 소화기를 작동했고 신속하게 소방당국에 신고를 하는 매뉴얼에 따라 신고됐다"며 "소방차가 도착한 이후 소방 인력들과 주도적으로 진화에 협력했다"고 말했다.
◇ 카카오는 왜 '먹통 장기화' 못막았나
카카오는 전원 전체가 차단되면서 서비스가 다운됐다. 카카오가 메인으로 사용하는 데이터 전원 차단으로 3만2000개의 서버가 '속수무책'으로 차단됐다.
'국민메신저'인 카카오톡을 비롯해 일상 생활과 밀접한 사업을 영위하는 카카오의 위기대응 능력 문제도 고스란히 드러났다.
화재가 난 데이터센터에는 카카오뿐 아니라 네이버도 입주해 있었는데, 유독 카카오 이용자의 피해가 장기화된 된 것은 데이터 백업을 위한 '이중화' 조치 외에 재해 복구를 위한 '이원화'(DR, Disaster Recovery) 조치까지는 하지 않았기 때문으로 보고 있다.
실제 네이버는 데이터 뿐 아니라 시스템을 이원화해 서비스 장애를 빠르게 복구한 것으로 알려진다. 화재가 발생한 지난 15일 네이버 나우, 제페토 등을 통해 BTS(방탄소년단)의 생중계에도 네이버 서비스가 문제없이 진행된 것도 이 때문이다.
이와 관련 정수환 네이버클라우드 본부장은 "화재 발생 후 다른 IDC(데이터센터)로 서비스를 전환하는 작업을 진행했다"며 "모든 주요 서비스를 이중화하고 있어 어느 정도 대비를 했다"고 말했다.
업계 관계자는 "이번 화재가 발생한 곳은 전원 공급 설비가 모여있는 지하에서 발생해 전원 차단이 불가피했을 것"이라며 "판교 데이터센터에 카카오 서버가 집중됐는데, 만약 카카오 내년 준공 예정인 안산 데이터센터가 이번 화재 발생 때도 있었다면 서비스 장애가 이렇게 길게 이어지진 않았을 수도 있다"고 말했다.
ejjung@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.