AWS_US-EAST1_top

AWS, 15시간의 리전 복구 소동

지난달 19일 오후 11시 49분(태평양 표준시), 미국 버지니아 북부에 위치한 아마존웹서비스(AWS)의 ‘동부1(US-EAST1)’ 리전에 이상 징후가 발생해 접속 지연 및 이용 제한 현상이 나타났어요. AWS는 장애 발생 이후 즉시 원인 파악과 복구 작업에 착수해 약 3시간 뒤부터 순차적으로 서비스를 안정화하기 시작했고, 이후 단계적 조치를 통해 약 15시간 만에 전체 시스템을 정상화했다고 밝혔죠.

AWS는 원인 보고서에 따르면 다이나모DB의 DNS 오류가 EC2와 NLB 등 주요 서비스에 영향을 주면서 다수의 AWS 서비스로 장애가 확대됐다고 밝혔습니다. AWS는 NLB에는 ‘상태 확인 실패(Health Check Failure)’로 인해 한 번에 제거되는 용량을 제한하는 ‘속도 제한(velocity control)’ 메커니즘을 추가하고, EC2에 대규모 회복 시나리오 검증을 위한 테스트 스위트 강화, 네트워크 상태 전파 지연을 보호하는 ‘스로틀링(throttling)’ 메커니즘 강화 등을 수행하기로 했습니다.

이번 문제로 인해 AWS를 기반으로 서비스를 운영하는 기업들이 타격을 입었는데요. 스타벅스, 맥도날드, 넷플릭스, 디즈니플러스, 영국 로이드 은행, 스냅챗, 챗GPT 등의 인터넷 서비스와 암호화폐 거래소 코인베이스, 런던증권거래소그룹(LSEG), 영국 국세청 웹사이트 등이 장애를 겪었습니다. BBC에 따르면 정전 감시 기관인 다운디텍터에 세계적으로 650만 건 이상의 신고가 접수됐으며, 1,000개 이상의 회사가 영향을 받았다고 합니다.

AWS는 전 세계 민간 공공 분야의 클라우드 인프라 3분의 1을 차지하는 인프라 서비스로 여러 리전에 백업 체계를 구축하면 서비스 장애를 최소화할 수 있다고 강조해 왔지만, US-EAST1 리전처럼 세계적으로 많은 고객의 서비스를 수용하는 곳에서 핵심 서비스에 장애를 일으키면 피해가 커질 수밖에 없죠.

AWS_US-EAST1_1

US-EAST-1은 AWS의 첫 번째 리전으로, AWS 이용자가 인프라 리전을 선택할 때 기본값으로 설정됩니다. 전 세계적으로 많은 사용자와 서비스가 US-EAST-1 리전에 대한 의존도가 높으므로, 이 지역에서 장애가 발생하면 그 영향이 글로벌 규모로 확산되어 심각한 문제를 일으킬 수 있어요. 또한, 다이나모DB 글로벌 테이블, 아마존 클라우드프론트 CDN 등 특정 글로벌 AWS 서비스나 핵심 기능이 US-EAST-1에서 실행되며 글로벌 계정 관리, IAM, 일부 제어 API, 복제 엔드포인트 등도 제공되죠. 따라서 사용자가 서울 리전에서 인프라를 운영하더라도, US-EAST-1에 위치한 주요 AWS 서비스의 컨트롤 플레인과 크로스 리전 기능으로 인해 연쇄적으로 영향을 받을 수밖에 없었죠.

AWS는 인프라 운영 능력에서 최고의 기술력을 자랑해 온 만큼, 이번 사태는 신뢰도에 적지 않은 타격을 줄 것으로 예상됩니다. 일부 언론은 이번 장애의 원인이 최근까지 이어져 온 아마존의 대규모 인력 감축 때문이라고도 지적했어요. 아마존은 2022년부터 2024년까지 27,000명 이상을 해고했으며, 올해도 대량 해고가 계속되었습니다. 내부 문서에 따르면, 아마존의 모든 직급에서 '후회할 만한 이직률 Regrettable Attrition Rate’ (조직이 막을 수 있었음에도 이탈한 우수 인재들의 비율을 의미)가 69~81% 사이에 달하는 것으로 나타났습니다. 이는 구조조정의 여파로 회사가 붙잡고 싶었던 핵심 인재들까지 대거 유출되고 있다는 뜻이며, 이러한 인력 문제가 결국 회사 운영과 서비스 안정성에도 영향을 미쳤다는 비판도 제기된 거죠.

AWS_US-EAST1_2
 

콘텐츠 제공 : 바이라인네트워크(byline.network)

 
 
구독하기 버튼