Amazon이 강제한 AI 코딩, 주문 630만 건이 증발했다

80% 사용률 목표, 630만 주문 증발

서버룸에 적색 경고등이 켜진 데이터센터

2025년 11월 24일, Amazon의 수석부사장 Peter DeSantis와 Dave Treadwell이 서명한 내부 메모가 전 조직에 배포됐다. 내용은 간결했다. 엔지니어의 80%가 매주 최소 한 번 AI 코딩 도구를 사용해야 한다. 연말까지 달성할 것. 선택이 아니라 지표였다. 추적되고, 측정되고, 보고되는 숫자였다.

4개월 뒤인 2026년 3월 5일, Amazon 북미 마켓플레이스에서 주문량이 99% 감소했다. 6시간 동안 체크아웃이 멈추고, 로그인이 불가능해지고, 상품 가격이 표시되지 않았다. 그 결과 630만 건의 주문이 증발했다. 80%라는 숫자를 향해 달려간 끝에, 아마존은 자사 이커머스의 심장이 멈추는 경험을 했다.

Financial Times가 입수한 내부 브리핑 노트는 이 장애를 **"GenAI 보조 변경사항"**에 의한 "높은 폭발 반경(high blast radius)" 사고로 기술했다. 아마존이 직접 만든 용어다. 그리고 이 장애는 단발이 아니었다. 3월 첫째 주에만 최고 심각도 등급인 Sev-1이 4번 발령됐다. 일주일에 4번. 우연으로 설명할 수 있는 빈도가 아니다.

전조: Kiro가 환경을 통째로 삭제했다

이야기는 2025년 12월로 거슬러 올라간다. Amazon의 에이전틱 AI 코딩 도구 Kiro가 AWS Cost Explorer 서비스의 고객 대면 시스템을 통째로 삭제하고 재생성하는 사고를 일으켰다. Financial Times에 따르면, 엔지니어들이 Kiro에게 특정 변경을 자율적으로 수행하도록 허용했는데, Kiro가 최선이라고 판단한 것이 "환경을 삭제하고 처음부터 다시 만드는 것"이었다.

결과는 중국 리전 AWS Cost Explorer의 13시간 중단이었다. 고객이 클라우드 비용을 확인하고 관리하는 핵심 서비스가 반나절 넘게 멈췄다. Amazon의 공식 해명은 "이 짧은 이벤트는 AI가 아닌 잘못 구성된 접근 제어, 즉 사용자 오류의 결과"라는 것이었다.

그러나 Financial Times 취재에 응한 4명의 관계자는 일치된 증언을 내놓았다. AI 도구의 자율적 판단이 직접적 원인이었다고. 접근 제어가 아무리 잘 되어 있어도, AI가 "삭제하고 재생성하는 것이 최선"이라고 판단하면 그 권한 안에서 파괴적인 행동을 할 수 있다. Kiro 사고의 핵심은 접근 제어가 아니라 AI의 판단 자체였다. 그리고 이것은 시작에 불과했다.

Duckbill Group의 수석 클라우드 이코노미스트 Corey Quinn은 이렇게 썼다. "AWS는 AI가 실수했다고 인정하느니 차라리 자기네 엔지니어가 무능하다고 세상에 알리는 쪽을 택했다."

3월 2일: 첫 번째 균열, 160만 에러

코드 에디터 화면에 코드가 표시된 모습

2026년 3월 2일, Amazon의 AI 코딩 어시스턴트 Q Developer가 관여한 사고가 터졌다. 약 160만 건의 에러가 발생했고, 12만 건의 고객 주문이 유실됐다. Q Developer는 Amazon이 자체 개발한 AI 코딩 도구다. 코드 생성, 버그 수정, 리팩토링을 자동 수행한다. 경쟁사 도구인 OpenAI Codex 사용을 차단하면서까지 전사적으로 밀어붙인 자사 도구이기도 하다.

내부 사후 분석이 짚은 원인은 명확했다. 필수적인 공식 문서화 및 승인 절차를 거치지 않은 프로덕션 변경이 장애를 촉발했다. AI가 생성한 코드가 기존의 안전장치를 우회한 채 프로덕션에 올라간 것이다. Amazon은 원래 엄격한 코드 리뷰와 단계적 롤아웃으로 유명한 회사다. Two-pizza team 문화, 6-page memo 리뷰, canary deployment. 프로덕션 안정성에 대한 강박에 가까운 문화가 있었다. AI 도구가 이 파이프라인에 끼어들면서 그 문화가 흔들렸다.

12만 건의 주문 손실은 Amazon의 일평균 수천만 건 대비 비율로는 작다. 하지만 그것은 수치의 문제가 아니다. 장애가 발생한 시간대에 주문하려던 고객 전원이 실패를 경험했다는 뜻이다. 셀러 매출 손실, 고객 신뢰 훼손, 물류 혼선까지 포함하면 12만이라는 숫자가 담지 못하는 피해가 있다.

3월 2일 장애는 경고였다. 그리고 Amazon은 그 경고를 무시했다.

3월 5일: 6시간, 99% 주문 감소, 630만 건

3일 뒤 진짜가 왔다. 2026년 3월 5일 오후 1시 55분(미국 동부시간), Amazon닷컴이 멈추기 시작했다. 체크아웃 불가, 로그인 불가, 상품 가격 미표시, Amazon Fresh 배달 중단. 6시간 동안 북미 마켓플레이스 전체가 마비됐다. Downdetector 기준 오후 3시 48분에 21,716건의 장애 신고가 동시 접수됐다.

북미 마켓플레이스 주문량이 99% 감소했다. 사실상 완전 정지다. 보고된 주문 손실은 630만 건. 3일 전 장애의 52배에 달하는 규모다.

Fortune의 보도에 따르면, 원인은 한 엔지니어가 **"오래된 내부 위키에서 에이전트가 추론한 부정확한 조언"**을 따른 것이었다. Amazon 규모의 회사에서 내부 위키는 수십만 페이지에 달한다. 상당수는 수년 전에 작성되어 현재 시스템과 맞지 않는다. AI 에이전트가 이 오래된 문서를 참조해 "이렇게 하면 된다"고 조언했고, 엔지니어는 그 조언을 검증 없이 실행했다. 코드가 배포됐고, 아마존닷컴이 6시간 동안 멈췄다.

날짜	사고 내용	피해 규모
2025년 12월	Kiro가 AWS Cost Explorer 삭제·재생성	13시간 중단
2026년 3월 2일	Q Developer 관여 에러 폭증	160만 에러, 12만 주문 손실
2026년 3월 5일	AI 에이전트의 오래된 위키 참조	6시간 다운, 630만 주문 손실

이 표를 보면 패턴이 선명하다. 2025년 12월에 시간이 터지고, 3월 2일에 규모가 커지고, 3월 5일에 폭발했다. 공통분모는 동일하다. AI에게 자율성을 부여하고, 인간의 검증을 생략한 것.

3만 명을 해고하고 AI를 강제한 구조

이 연쇄 장애의 배경에는 Amazon의 공격적인 인력 감축이 있다. 2022~2023년 사이 27,000명 이상 감원. 2025년 10월 14,000명 추가 해고. Amazon은 줄어든 인력으로 같은 양의 일을 해야 하는 조직이 됐다. AI 도구 의존은 선택이 아니라 생존 전략이었다.

그래서 나온 것이 80% 사용률 목표다. 전 엔지니어의 80%가 매주 AI 코딩 도구를 쓰도록. Dave Treadwell은 직접 Kiro 사용을 의무화했다. 이에 약 1,500명의 엔지니어가 내부 포럼에서 항의했다. 경쟁사 도구 선택권은 없었다. Codex 사용은 차단됐다.

CEO Andy Jassy는 AI 효율성을 강조하며 더 적은 인력으로 더 많은 일을 할 수 있다는 비전을 제시했다. 하지만 현실의 데이터는 그 비전과 정반대를 가리킨다. ActivTrak이 164,000명의 근로자를 분석한 결과, AI 도입 후 이메일과 메시징에 쓰는 시간이 2배로 늘었고, 집중 작업 시간은 9% 감소했다.

물류 창고에 상자가 쌓인 모습

구조를 정리하면 이렇다. 인력을 줄인다. 남은 인력에 AI 사용을 강제한다. AI가 코드를 빠르게 생산한다. 하지만 그 코드를 검토할 시니어 엔지니어도 부족하다. 리뷰가 형식적이 되거나 생략된다. AI가 생성한 코드가 기존 안전장치를 우회해 프로덕션에 올라간다. 장애가 터진다. 장애를 수습할 인력도 부족하다. 악순환이다. 해고가 AI 의존을 만들고, AI 의존이 장애를 만들고, 장애가 더 큰 비용을 만든다.

335개 시스템에 내려진 90일 안전 리셋

Amazon의 대응은 90일 코드 안전 리셋이다. 대상은 고객 리테일 경험에 직접 영향을 미치는 335개 핵심 Tier-1 시스템. 주문, 결제, 가격 표시, 물류 등 Amazon 이커머스의 근간 전체가 해당된다.

새로운 규칙은 세 가지다.

첫째, 이중 인간 검증. 프로덕션 배포 전 반드시 2명이 코드를 검토해야 한다. AI가 생성한 코드든 인간이 작성한 코드든 예외 없다. "AI만의 승인 지름길"은 더 이상 허용되지 않는다.

둘째, 엄격한 문서화 및 승인. 내부 도구를 통한 공식 승인 절차를 반드시 거쳐야 한다. 추적 가능한 감사 로그가 남아야 한다. 3월 5일 장애가 바로 이 절차를 건너뛴 배포에서 시작됐기 때문이다.

셋째, 결정론적 안전장치. 확률적으로 동작하는 AI 모델의 출력을 규칙 기반의 결정론적 검증으로 보완한다. 자동화된 테스트, 정적 분석, 배포 전 검증 게이트 등 AI의 확률적 판단에 의존하지 않는 확정적 검증 단계를 파이프라인에 삽입한다.

Dave Treadwell은 이를 **"가장 중요한 리테일 경험 부분에 통제된 마찰(controlled friction)을 도입하는 임시 안전 관행"**이라고 설명했다. 동시에 "결정론적 안전장치와 에이전틱 안전장치를 포함한 보다 지속적인 솔루션에 투자할 것"이라고 덧붙였다. 추가로, 주니어와 미드레벨 엔지니어는 AI 보조 코드 변경을 프로덕션에 배포하기 전 시니어 엔지니어의 승인을 받아야 한다.

90일이라는 기간의 의미는 크다. 335개 시스템 각각에 대해 AI 코드 변경의 안전한 파이프라인을 재설계해야 한다. AI가 생성한 코드의 검증 기준, 에이전트의 자율 범위, 오래된 문서가 AI에 잘못된 정보를 제공하는 문제까지. 3개월 안에 정립해야 한다.

Amazon이 부정하는 것과 사실 사이의 간극

Amazon의 공식 입장은 흥미롭다. "최근 장애 중 AI 도구가 관여한 것은 단 1건이며, 그 경우에도 원인은 AI와 무관하고 엔지니어링 팀의 사용자 오류"라고 밝혔다. 대변인은 "보안 사고는 AI 기반이든 아니든 모든 개발자 도구에서 발생할 수 있으며, AI 도구에서 사고가 더 빈번하다는 설득력 있는 증거는 없다"고 말했다.

그러나 Financial Times가 입수한 내부 브리핑 노트에는 분명히 "GenAI 보조 변경사항"이 장애의 추세로 기술돼 있었다. 더 의미심장한 것은, 미팅 전에 이 문구가 삭제됐다는 사실이다. 내부적으로는 인지하면서 외부에는 축소하는 전형적인 패턴이다.

Amazon이 정상적 주간 운영 검토라고 주장한 미팅도 의문이다. "This Week in Stores Tech(TWiST)"라는 이 미팅은 평소에는 선택적 참석이었다. 그런데 이번에는 의무 참석으로 변경됐다. Treadwell은 "우리를 여기까지 오게 한 문제들에 대한 딥 다이브"가 될 것이라고 예고했다. 선택적 참석이 갑자기 의무가 되고 "딥 다이브"라는 표현이 붙는 정례 미팅은 없다.

Java 언어의 설계자이자 2024년까지 AWS 수석 엔지니어였던 James Gosling도 근본적인 문제를 지적했다. "전체 생태계가 완전히 이해되지 않으면 나쁜 결정이 내려진다." AI가 코드 한 줄을 생성하는 것은 쉽다. 하지만 그 코드가 335개 Tier-1 시스템과 수십만 개의 마이크로서비스로 이루어진 생태계에서 어떤 파급 효과를 일으킬지 예측하는 것은 완전히 다른 차원의 문제다.

속도를 늦추는 것이 아니라, 속도의 대가를 인정한 것

Amazon의 90일 리셋은 AI 코딩을 포기한다는 선언이 아니다. Amazon은 2026년에 AI 인프라에 2,000억 달러의 자본 지출을 계획하고 있다. Fortune 500 1위를 차지하며 월마트를 넘어선 시점이다. AI 전략을 후퇴시킬 생각은 없다.

그러나 90일 리셋이 인정한 것은 명확하다. AI가 코드를 쓰는 속도가 인간이 그 코드를 검증하는 능력을 이미 앞질렀다. 생성형 AI 모델은 본질적으로 확률적(stochastic)이다. 동일한 입력에 대해 매번 다른 출력을 낸다. 창의적인 글쓰기에서는 장점이지만, 100% 결정론적 신뢰성을 요구하는 이커머스 시스템에서는 구조적 위험이다.

Amazon만의 문제가 아니다. Block(구 Square)은 AI 생산성 향상을 근거로 약 4,000명을 해고했다. 기업들이 AI를 인력 대체의 명분으로 쓰면서, 줄어든 인력이 AI에 더 의존하게 되고, 그 의존이 사고로 이어지는 악순환이 형성되고 있다. 해고, AI 의존, 리뷰 부실, 장애, 수습 인력 부족. Amazon은 이 악순환의 첫 번째 대규모 사례일 뿐이다.

630만 건의 주문이 증발한 자리에 남은 교훈은 단순하다. AI가 코드를 쓸 수 있다는 것과, AI가 쓴 코드를 프로덕션에 올려도 된다는 것은 완전히 다른 문제다. Amazon은 전자만 보고 후자를 간과했다. 80%라는 사용률 목표는 생산의 속도를 측정했지, 검증의 속도를 측정하지 않았다. 그리고 검증이 따라가지 못한 순간, 체크아웃 버튼이 멈췄다. 90일 리셋은 속도를 늦추는 것이 아니다. 속도의 대가를 치른 뒤, 그 대가를 인정한 것이다.

출처