• 서울
    R
    9℃
    미세먼지
  • 경기
    B
    미세먼지
  • 인천
    B
    미세먼지
  • 광주
    B
    미세먼지
  • 대전
    B
    미세먼지
  • 대구
    B
    미세먼지
  • 울산
    H
    9℃
    미세먼지
  • 부산
    H
    10℃
    미세먼지
  • 강원
    H
    8℃
    미세먼지
  • 충북
    B
    미세먼지
  • 충남
    B
    미세먼지
  • 전북
    B
    미세먼지
  • 전남
    R
    10℃
    미세먼지
  • 경북
    B
    미세먼지
  • 경남
    H
    10℃
    미세먼지
  • 제주
    B
    미세먼지
  • 세종
    B
    미세먼지
최종편집2024-03-28 19:16 (목) 기사제보 구독신청
카카오 '먹통 사태' 두 달…재발방지 대책에 무엇을 담았나
카카오 '먹통 사태' 두 달…재발방지 대책에 무엇을 담았나
  • 정서영 기자
  • 승인 2022.12.07 18:08
  • 댓글 0
이 기사를 공유합니다

데이터센터 화재로 인한 장애 원인 분석과 재발방지책 발표
카카오 서비스 안정화 최우선…시스템 전체 이중화 추진
(윗줄 왼쪽부터 시계방향) 남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장, 이채영 재발방지대책소위원회 부위원장, 고우찬 재발방지대책 공동 소위원장.<카카오>

[인사이트코리아=정서영 기자] 카카오가 지난 10월 15일 판교 데이터센터 화재에 따른 먹통 사태 두 달 만에 재발 방지 대책을 내놓았다.

남궁훈 재발방지대책 공동 소위원장은 개발자 콘퍼런스인 ‘이프 카카오 데브 2022’를 통해 카카오의 유사 사고 재발 방지를 위한 각오를 피력했다.

남궁 소위원장은 “이번 소위원회 활동을 통해 카카오의 본질을 놓치고 있었다는 것을 깨달았다”며 “앞으로도 카카오의 서비스 안정화가 우리의 최우선 과제이며, 사회적 책임이라는 것을 항상 명심할 것”이라고 밝혔다.

남궁 소위원장은 카카오 먹통 사태에 책임을 지고 지난 10월 대표직에서 사퇴했다. 이후 비상대책위원회 재난대책소위에서 재발 방지를 위해 힘을 쏟고 있다.

카카오 먹통 사태 원인은?

카카오는 이날 데이터센터 화재로 인한 서비스 장애 원인을 분석한 결과를 내놨다. 그 결과 이중화와 위기 대응 과정에서 미흡함이 드러났다고 지적했다.

서비스를 담당하는 서버가 이중화되었음에도 데이터센터 간 이중화가 미흡해 화재가 일어난 후 장애 복구가 늦어졌다는 것이다. 예컨대 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환돼 또 다른 시스템이 작동해야 하지만, 이 시스템마저도 판교 데이터센터에 설치돼 수동으로 전환 작업을 진행했기 때문이라는 것이다.

또 시스템을 복구하기 위한 운용 도구 및 모니터링 시스템의 이중화 미흡, 데이터센터 전체의 장애에 대응하기 위한 인력과 자원 부족을 이유로 꼽았다.

카카오가 발표한 재발방지 대책은?

카카오의 이번 사태는 서버 전체 전원이 차단되면서 대규모 장애가 발생한 것이다.

이에 따라 먼저 기술적 개선을 통해 재발을 방지한다는 방침이다. 데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화 등 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체의 철저한 이중화를 추진하겠다는 게 주된 내용이다. 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리도구 삼중화 등도 포함됐다.

또 4600억원을 투입한 안산 데이터센터를 2024년 상반기까지 완공해 향후 안정적인 서비스 운영을  하겠다는 목표를 내놨다. 추가로 또 다른 데이터센터도 구축할 예정이다.

아울러 인프라 부분을 강화하기 위해 IT 엔지니어링 전담 조직을 신설해 안정적인 서비스 환경을 조성할 예정이다. 그 일환으로 카카오 엔터프라이즈에서 부사장으로 근무하던 고우찬 재발방지 공동 소위원장을 영입해 IT 엔지니어링 전문가들로 구성된 전담 조직을 통해 안정적인 서비스 환경 조성과 투자에 집중하기로 했다.

고우찬 비상대책위원회 재발방지대책 공동 소위원장은 “서비스 안정화를 위한 인재 확보와 기술 개발, 삼중화 이상의 재난복구 구현 등에 지난 5년간 투자한 금액의 3배 이상을 향후 5년간 투자하겠다”고 말했다.

더불어 IT 엔지니어링 인재 확보, 각종 자연재해와 인위적 사건 사고로 사업을 중단하는 상황을 최소화하기 위한 비상대응 계획 및 데이터센터 DR 체계 구축 등 여러 방안을 논의하고 있다고 덧붙였다.

인사이트코리아, INSIGHTKOREA

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.