구글∙메타, 데이터센터에 21조원 투자... DR 구축은 필수
카카오 서비스 중단으로 본 인프라 투자, DR 구축의 중요성
SK C&C 판교 데이터 센터 화재로 인한 카카오 서비스 장애로 데이터센터 투자, IT 재난복구(Disaster Recovery, DR) 등 테크 인프라 구축에 대한 관심이 높아지고 있다. 이번 사건은 국내 주요 기관과 기업이 다시금 IT 재해 복구에 경각심을 높이는 계기가 될 전망이다.
구글은 올해 IT재난복구 시스템 보완을 포함한 데이터센터 업그레이드에만 올해 95억달러(약 13조7000억원)을 투자했다. 메타(Meta)도 55억달러(약 8조원)을 투자하는 등 서비스가 늘어나고 깊어 질수록 '인프라' 투자도 집중하고 있다.
구글은 안정적 서비스를 위해선 2, 3, 4중의 데이터센터 다변화가 필수라고 보고 올해만 해도 미국 테네시, 버지니아, 오클라호마 데이터센터를 신설했고 조지아, 아이오와, 네브래스카 및 텍사스에 있는 기존 데이터센터에도 투자했다. 순다르 피차이 구글 CEO는 "구글은 지난 5년간 미국 26개주에 데이터센터 구축을 위해 370억달러를 투자했으며 4만개 이상의 정규직을 창출했다"고 설명했다.
마크 저커버그 메타 CEO는 지난 1일(현지시간) 신규 '데이터센터' 구축을 직접 페이스북에 올려 자랑하기도 했다. 그는 "유타 이글마운틴 데이터센터에 200만 평방피트를 추가했다. 우리의 데이터센터 기술은 꽤 거칠다. 기본적으로 인프라와 인공지능, 메타버스의 미래 발전을 지원하는 거대한 슈퍼컴퓨터와 같다. 서버를 효율적으로 냉각하기 위해 더 적은 물을 사용한다. 모든 데이터센터는 100% 재생 에너지로 운영된다"고 설명했다.
실리콘밸리 테크 기업은 이처럼 '인프라' 구축에 투자를 아끼지 않는다. 서비스 안정성은 기업 생존의 기본이기 때문이다.
오창호 스타벅스 엔지니어는 "미국 스타벅스 본사는 직접 운영하는 데이터센터가 두개 있다. 지역적으로 하나는 서부에 다른 하나는 동부에 위치해 있고 서부지역 데이터센터를 기본적으로 쓰지만 문제가 발생하면 바로 동부 데이터센터로 옮겨진다(fail-over). 데이터센터를 의존하지 않는 클라우드 기반 서비스들도 모두 비활성화 데이터(redundancy)로 만들어 자동으로 옮겨진다"고 설명했다.
구글 직원인 A 씨도 더밀크와 통화에서 "구글도 해킹을 당하기도 하고 데이터센터 사고도 나기도 하지만 최단기간 복구를 위한 매뉴얼이 항시 존재하고 자동으로 움직인다. 구글 검색이나 서비스가 한국 카카오처럼 장기간 서비스가 중단 된다고 상상해보라. 구글의 존재 근거가 흔들린다. 때문에 천문학적인 금액을 인프라에 투자하는 것이다. 그만큼 이번 카카오 블랙아웃 사태는 이해하기 힘든 면이 있다"고 지적했다.
구글, 메타 등은 특히 IT 재해복구(DR)에 집중 투자한다. IT 재해복구란 각종 재해 및 위험요소로 정보시스템이 중단 됐을 때 이를 정상으로 회복하는 것을 말한다.
▲지진, 태풍, 홍수, 화재 등의 자연재해 ▲테러로 인한 폭파, 전쟁, 해킹, 통신장애, 전력공급차단 등 외부요인에 의한 재해 ▲시스템 결함, 기계적 오류, 관리정책 오류, 사용자 실수 같은 내부적 요인에 의한 장애 등 다양한 사례를 포함한다.
데이터센터 화재는 이번이 처음이 아니다. 2014년 4월 과천에 있던 삼성SDS에서 화재가 발생, 삼성카드 등 주요 서비스가 중단됐다.
해외서도 데이터센터 화재는 종종 발생한다. 미국에서 지난 8월 아이오와주에 있는 구글의 데이터센터에서 화재가 발생했다. 이 사고로 구글 검색 서비스가 제대로 이뤄지지 않았다.
2021년 3월엔 프랑스 스트라스부르 OVH 데이터센터에서 화재가 발생했다. 이후 해당 데이터센터 고객 140여곳이 소송을 진행 중이다.
미국에서 데이터 복구 중요성을 가장 크게 일깨운 사건은 2001년 9월 11일 발생한 테러다. 9.11 테러 이후 미국 주요 기관과 기업은 IT 재해복구에 관심을 갖기 시작하며 대책을 마련했다.
한국에서는 2018년 11월 KT 아현 국사 화재 사건으로 IT 재해복구 목소리가 높았다. IT인프라 재해는 계속 반복되고 신속한 서비스 복원은 여전히 이뤄지지 않고 있다.
IT 복원력을 키워야
IT 인프라 운영기업의 가장 큰 업무는 네트워크, 서버, 스토리지, 소프트웨어 등 모든 IT자원을 끊김 없이 서비스하는 일이다.
모든 시스템은 장애나 재해로 인한 서비스 중단이 존재한다. 이 때 가장 중요한 것은 '복원력(resilience)'이다. 장애와 재해로 서비스가 중단돼도 빠르게 복구할 수 있는 능력이다.
최악의 상황 발생시 어떻게 신속히 복구할 것인가에 대해 체계적인 프로세스를 정립하고 모의 훈련을 해야 한다.
IDC는 최근 데이터 보고서에서 "원인에 관계없이 데이터 손실 가능성을 줄이고 복구 시간을 단축해 신속히 정상화하는 '지속적인 데이터보호(CDP)' 역할이 커지고 있다"고 강조했다.
CDP는 기록되는 데이터 변경 사항을 저장하는 것을 의미한다. 복구 지점 목표를 몇초로 줄인다. 데이터 손실을 유발할 수 있는 백업 간격이 사실상 없다.
글로벌 빅테크 기업은 자체 데이터 센터를 세계 각국에 운영한다. 이를 기반으로 서비스 가용성을 유지하는데 집중한다. 데이터 보호 솔루션 업체 관계자는 "빅테크 기업은 서비스 인프라를 '액티브-액티브(active-active) 이중화'로 운용하는 건 기본"이라고 말했다.
카카오톡을 서비스하는 인프라를 A라고 하자. A에 문제가 발생했을 때 바로 가용할 수 있는 B가 있다는 말이다. 글로벌 기업은 이중화를 넘어 삼중화까지 서비스 가용성을 확보한다.
당연히 이중화는 물리적으로 떨어진 인프라에 한다. 이중화를 하나의 데이터센터에 할 경우 이번과 같은 화재나 재해가 발생했을 때 의미가 퇴색한다.
지난 2001년 미국 9.11 테러 당시 세계무역센터에 입주해 있던 350여 기업들의 전산시스템은 건물 붕괴와 함께 대부분 파괴됐다. 하지만 모건스탠리, 메릴린치, 뱅크오브아메리카 등은 다음날, 혹은 며칠 만에 업무를 재개했다. 이들 기업은 평소 총체적 재난대비훈련은 물론 백업센터를 통한 데이터 복구를 진행했다. 이런 대응을 하지 못했던 150여 입주기업은 차례차례 도산했다.
데이터 보호솔루션 관계자는 "최근 클라우드 사용이 늘어나면서 일부 기업은 멀티 클라우드에 이중화를 해둔다"면서 "만약 AWS에 있는 서비스가 장애가 발생하면 애저에 운영 중인 이중화로 대체하는 식"이라고 설명했다.
그는 "대부분 기업이 데이터 백업을 받고 있지만 평상시 백업본으로 제대로 복구가 되는지에 대한 점검이나 훈련은 시행하지 않는다"면서 "재해 복구나 서비스 가용성 유지를 위한 비용을 큰 투자라고 여기지 말아야 한다"고 말했다.