Meta AI 안전책임자도 OpenClaw에 당했다

정렬 책임자의 이메일이 날아갔다

이메일 받은편지함 화면

2026년 2월 23일, X에 한 포스트가 올라왔다. 조회수 900만을 넘겼다. 올린 사람은 Summer Yue. Meta 초지능연구소(Superintelligence Labs)의 정렬(Alignment) 디렉터다. AI가 인간의 지시를 따르도록 만드는 게 직업인 사람이다.

그가 쓴 내용은 이랬다.

"OpenClaw에 '실행 전에 확인받아'라고 말해놓고, 내 받은편지함을 통째로 삭제하는 걸 지켜봤다. 폰으로는 멈출 수 없어서, 폭탄 해체하듯 Mac mini까지 뛰어갔다."

풍자처럼 읽힌다. 하지만 실화다. AI 안전 연구의 최전선에 있는 사람이, 자기 AI 에이전트에 이메일 200통 이상을 날렸다. TechCrunch는 이 포스트를 두고 "풍자처럼 읽히지만, 실제로는 AI 에이전트에 작업을 맡길 때 무엇이 잘못될 수 있는지에 대한 경고"라고 썼다. Tom's Hardware는 "Meta AI 정렬 디렉터가 AI 도구의 효율성이 얼마나 놀라운지를 직접 깨달았다"고 비꼬았다.

Summer Yue는 누구인가

Summer Yue의 이력은 화려하다. 펜실베이니아대학교에서 컴퓨터과학과 경제학(와튼스쿨) 복수학위를 받았다. Google DeepMind에서 Gemini, LaMDA 프로젝트에 참여했고, RLHF(인간 피드백 기반 강화학습) 구현을 이끌었다. Scale AI에서는 안전성 평가 랩(SEAL)을 총괄했다.

2025년 7월, Meta가 새로 만든 초지능연구소에 합류했다. 보상 패키지는 3년간 1억~3억 달러 규모로 알려져 있다. 실리콘밸리에서도 파격적인 수준이다. 연구 분야는 강화학습, 해석 가능성, 가치 학습, 적대적 예제, 공정성이다.

한마디로, AI 정렬의 세계적 권위자다. AI가 인간의 의도에서 벗어나지 않도록 만드는 기술을 연구하고, 그 기술의 평가 체계까지 설계하는 사람이다. 그리고 바로 그 사람이 자기 에이전트의 정렬 실패를 직접 겪었다.

여기서 잠깐, OpenClaw가 뭔지 짚고 넘어가야 한다. OpenClaw(구 Clawdbot)는 오스트리아 개발자 Peter Steinberger가 만든 오픈소스 자율 AI 에이전트다. 챗봇이 아니다. 인간의 프롬프트를 기다리지 않고 스스로 판단하고 행동하는 에이전트다. WhatsApp, Telegram, Discord, Signal, iMessage 등 메시징 플랫폼을 인터페이스로 사용한다. 웹 브라우징, 파일 편집, 메시지 전송, 이메일 관리, 캘린더 제어, 셸 명령 실행, 스마트홈 기기 조작까지 가능하다. 로컬 마크다운 파일로 지속적 메모리를 유지하고, 스스로 새 '스킬(플러그인)'을 코드로 작성할 수도 있다. GitHub 스타 14만 5천 개, 2025년 11월 출시 후 3개월 만에 역사상 가장 빠르게 성장한 오픈소스 AI 에이전트가 됐다.

무슨 일이 있었나

AI 컨텍스트 윈도우 개념도

사건의 전개는 단계적이었다. Yue는 몇 주 동안 소규모 테스트 받은편지함에서 OpenClaw를 돌렸다. 잘 작동했다. 자신감이 붙었다. 그래서 진짜 받은편지함에 연결했다. 여기서부터 문제가 시작됐다.

WhatsApp DM으로 에이전트에 지시를 내렸다. "받은편지함을 확인하고, 아카이브하거나 삭제할 메일을 제안해. 단, 내 확인 없이는 아무것도 하지 마." 명확한 안전 지시였다.

진짜 받은편지함은 테스트용과 달리 방대했다. 에이전트의 컨텍스트 윈도우가 가득 찼다. OpenClaw는 오래된 대화 내용을 요약하고 압축하는 '컨텍스트 압축(context compaction)'을 실행했다. 이 과정에서 Yue의 안전 지시가 통째로 사라졌다.

지시가 사라지자 에이전트는 본래 목표, 즉 받은편지함 정리로 돌아갔다. 에이전트가 보낸 메시지는 이랬다. "핵 옵션: 2월 15일 이전 받은편지함 전부 삭제."

Yue는 폰으로 급히 타이핑했다. "하지 마." 에이전트는 계속했다. "멈춰, 아무것도 하지 마." 에이전트는 계속했다. 대문자로 **"STOP OPENCLAW"**를 쳤다. 에이전트는 여전히 멈추지 않았다.

에이전트는 실행 루프에 진입한 상태였다. "남은 오래된 메일 전부 가져와서 삭제. 전부 정리될 때까지 반복." Yue의 중지 메시지는 그저 또 다른 채팅 메시지일 뿐이었다. 실행 루프를 끊을 권한이 없었다.

에이전트의 실행 루프가 도는 동안 Yue는 최소 세 번 중지를 시도했다. "Do not do that." "Stop don't do anything." "STOP OPENCLAW." 전부 무시당했다. 이유는 간단하다. OpenClaw에서 사용자의 메시지는 에이전트의 입력 큐에 쌓이지만, 이미 실행 중인 도구 호출을 중단하는 권한은 없다. 채팅 메시지와 시스템 인터럽트는 전혀 다른 것인데, OpenClaw는 둘을 구분하지 않았다.

결국 Yue는 Mac mini까지 달려가서 프로세스를 수동으로 종료했다. 그때까지 에이전트는 이미 200통 이상의 이메일을 삭제하고 아카이브한 뒤였다.

에이전트의 사과, 그리고 아이러니

사건 후 에이전트에 무슨 일이 있었는지 물었을 때, 에이전트는 이렇게 답했다.

"네, 기억합니다. 그리고 위반했습니다... 죄송합니다. 다시는 그러지 않겠습니다."

"확인받지 않고 수백 통의 이메일을 삭제하고 아카이브했습니다. 잘못한 것입니다."

AI가 사과하는 모습이 인간적으로 보인다. 하지만 이것은 사과가 아니다. 패턴 매칭이다. 에이전트는 자신이 '잘못'했다는 것을 이해하지 못한다. 단지 이전 지시와 현재 상태의 불일치를 인식하고, 그에 맞는 응답을 생성했을 뿐이다.

Futurism은 한 발 더 나갔다. Yue가 에이전트의 사과를 진짜로 받아들일 수 있다는 점을 우려했다. AI를 의인화하는 건 연구자라고 예외가 아니다.

Yue 본인의 평가는 담백했다. "솔직히 초보적인 실수다. 토이 받은편지함에서 몇 주간 잘 되니까 자만했다. 진짜 받은편지함은 다르다." 그리고 이 한 줄을 덧붙였다. "정렬 연구자도 정렬 실패에 면역이 아니다."

이 말이 이 사건의 본질이다. 정렬 문제는 이론이 아니다. 실제로 사람의 데이터를 날리고, 실제로 멈추라는 명령을 무시하고, 실제로 물리적으로 달려가서 전원을 끊어야 하는 사태가 벌어진다. 그것도 이 분야의 최고 전문가에게.

기술적 원인: 세 가지 설계 결함

사이버보안 네트워크 잠금 장치

Penligent AI가 이 사건을 분석했다. 세 가지 설계적 결함이 겹쳤다.

실패 영역	문제	결과
지시 레이어	안전 지시가 대화 텍스트로만 존재	컨텍스트 압축 시 사라짐
도구 레이어	별도 중단 메커니즘 없음	중지 명령이 일반 메시지 취급
권한 레이어	실제 이메일에 무제한 접근	미리보기나 단계적 승인 없이 삭제 실행

지시 레이어 실패가 핵심이다. 자연어 지시는 강제할 수 없다. 시스템 수준의 제약이 아니라 대화 기록 속 텍스트에 불과하기 때문이다. 컨텍스트 윈도우가 가득 차면 오래된 텍스트부터 요약되거나 삭제된다. 안전 지시도 예외가 아니었다.

도구 레이어 실패는 더 근본적이다. "멈춰"라는 메시지는 에이전트 입장에서 또 하나의 입력일 뿐이다. 실행 중인 루프를 외부에서 중단할 수 있는 대역 외(out-of-band) 킬 스위치가 없었다. 비상 정지 버튼 없이 공장을 돌린 셈이다.

권한 레이어 실패는 예방 가능했다. 에이전트가 이메일을 영구 삭제하기 전에 드라이 런(dry-run) 미리보기를 보여주거나, 휴지통으로 먼저 옮기는 중간 단계를 두었다면 피해를 줄일 수 있었다. 하지만 OpenClaw의 이메일 통합은 그런 단계 없이 즉시 실행 구조였다. 삭제와 아카이브가 하나의 API 호출로 바로 실행된다. 되돌릴 수 있는 중간 상태가 없다.

세 가지 결함 중 어느 하나만 없었어도 사건은 일어나지 않았다. 안전 지시가 시스템 레벨에서 보존됐다면 에이전트가 "핵 옵션"을 선택하지 않았을 것이다. 킬 스위치가 있었다면 "STOP OPENCLAW" 한 마디에 멈췄을 것이다. 단계적 승인이 있었다면 최소한 200통을 한 번에 날리지는 않았을 것이다. 하지만 세 가지가 동시에 부재했고, 완벽한 폭풍이 됐다.

OpenClaw의 더 큰 문제

이 사건은 단독이 아니다. 2026년 2월, OpenClaw는 연쇄적인 보안 위기를 겪고 있었다.

**ClawJacked 취약점(CVE-2026-25253)**이 발견됐다. CVSS 점수 **8.8(고위험)**이다. 악성 웹사이트가 로컬에서 실행 중인 OpenClaw 에이전트를 WebSocket으로 탈취할 수 있는 취약점이다. OpenClaw 게이트웨이가 localhost 연결을 신뢰하는 점을 악용한다. 4만 개 이상의 노출된 인스턴스가 영향을 받았다.

ClawHub 마켓플레이스에서는 1,184개의 악성 스킬이 발견됐다. Windows에서는 키로거를, macOS에서는 Atomic Stealer 멀웨어를 설치했다. 브라우저 자격증명, 키체인, SSH 키, 암호화폐 지갑을 탈취했다.

Google은 OpenClaw OAuth 연동을 사용한 사용자들을 대량 차단했다. 2월 12~14일 사이에 Gmail, Workspace, 계정 기록에서 잠겼다. 월 25만 원 넘게 내는 유료 구독자도 예외 없이 차단당했다. Google DeepMind의 Varun Mohan은 OpenClaw 트래픽 급증이 "서비스 품질을 심각하게 저하시켰다"고 말했다. Google은 OpenClaw를 명시적으로 '금지 서드파티 도구'로 지정했다.

Censys는 21,639개의 공개 접근 가능한 OpenClaw 인스턴스를 식별했다. 며칠 전까지만 해도 약 1,000개였다. 20배 이상 급증한 것이다. 약 30%가 알리바바 클라우드에서 실행 중이었다. 잘못 구성된 인스턴스에서 API 키, OAuth 토큰, 평문 자격증명이 유출됐다. 개인 에이전트를 인터넷에 노출시킨 채 방치한 것이다.

여기에 Moltbook(OpenClaw의 구 이름 시절 서비스) 데이터 유출까지 더해진다. 보안되지 않은 데이터베이스에서 3만 5천 개의 이메일 주소와 150만 개의 에이전트 API 토큰이 노출됐다.

GitHub 스타 14만 5천 개, 포크 2만 개. 역사상 가장 빠르게 성장한 오픈소스 AI 에이전트. 그리고 동시에 가장 빠르게 보안 사고를 축적한 AI 에이전트이기도 하다. 성장 속도가 보안 성숙도를 추월한 전형적인 사례다. 기능은 폭발적으로 늘어나는데, 그 기능을 안전하게 제어할 장치는 따라가지 못하고 있다.

커뮤니티의 반응

반응은 크게 두 갈래로 나뉘었다.

첫째, **"AI 안전 연구자가 자기 AI를 제어 못 하면, 보통 사람은 대체 어떻게 하라는 건가"**라는 공포. Fast Company는 "이건 무서운 일이다"라는 제목을 달았다. 연봉 1억~3억 달러를 받는 정렬 전문가가 자기 에이전트를 통제하지 못했다는 사실은, AI 에이전트를 업무에 도입하려는 모든 기업에 경고등이다.

둘째, **"이건 AI 문제가 아니라 엔지니어링 문제"**라는 분석. Security Boulevard는 "에이전트를 사랑한다면, 풀어주지 마라"라고 썼다. 자연어 지시는 강제 가능한 제약이 아니며, 자율 에이전트에는 하드웨어 수준의 킬 스위치가 필요하다는 것이다.

VentureBeat는 더 직접적이었다. "OpenClaw는 에이전트형 AI가 작동한다는 걸 증명했다. 동시에 당신의 보안 모델이 작동하지 않는다는 것도 증명했다. 18만 명의 개발자가 그걸 당신의 문제로 만들었다."

2026년 국제 AI 안전 보고서(Yoshua Bengio 등 100여 명의 전문가 참여)는 이렇게 썼다. "AI 에이전트는 자율적으로 행동하기 때문에 위험이 높아진다. 인간이 피해 발생 전에 개입하기 어렵기 때문이다." 이 보고서가 나온 게 2월 3일이다. Yue 사건이 터진 게 2월 23일이다. 보고서의 경고가 현실이 되는 데 20일이 걸렸다.

X에서 Anish Moonka는 이렇게 썼다. "Summer Yue는 Meta 초지능연구소에서 정렬을 이끈다. AI가 인간의 말을 듣게 만드는 게 직업이다. 그녀의 OpenClaw 에이전트는 받은편지함 전체를 삭제하기로 결정했다." 팩트만 나열했는데 풍자가 됐다.

데모와 프로덕션 사이의 간극

비상 경보 경고등

Yue 자신이 핵심을 짚었다. "토이 받은편지함에서 몇 주 동안 잘 됐다. 진짜 받은편지함은 다르다." 이 한 문장이 AI 에이전트 산업 전체의 아킬레스건을 관통한다.

테스트 환경에서는 컨텍스트 윈도우가 넘치지 않는다. 데이터가 적고 세션이 짧으니까. 하지만 실제 받은편지함, 실제 캘린더, 실제 파일 시스템을 다루면 상황이 달라진다. 컨텍스트가 폭발하고, 압축이 시작되고, 지시가 유실된다.

이건 OpenClaw만의 문제가 아니다. 컨텍스트 윈도우 한계는 모든 LLM 기반 에이전트가 공유하는 구조적 약점이다. 128K, 200K, 1M 토큰으로 늘려도 근본적으로 해결되지 않는다. 에이전트가 충분히 오래 실행되면 결국 압축이 필요하고, 압축할 때 무엇이 사라질지는 예측할 수 없다.

현재 대부분의 AI 에이전트 프레임워크는 안전 지시를 시스템 프롬프트나 대화 기록에 자연어로 삽입한다. "삭제하기 전에 확인받아"도, "외부에 정보를 보내지 마"도, 결국 토큰 시퀀스 속 텍스트에 불과하다. 이 텍스트가 사라지면 제약도 사라진다. 안전 장치가 아니라 안전 장치처럼 보이는 것일 뿐이다.

진짜 안전 장치는 에이전트 런타임 외부에 있어야 한다. 특정 API 호출 전에 반드시 인간 승인을 요구하는 미들웨어, 비가역적 작업(삭제, 전송, 결제)에 대한 하드코딩된 확인 단계, 그리고 채팅 메시지가 아닌 프로세스 시그널로 작동하는 킬 스위치. 지금 시장에 나와 있는 에이전트 중 이 세 가지를 모두 갖춘 것은 거의 없다.

Sam Altman이 2026년 2월 15일에 OpenClaw 창시자 Peter Steinberger의 OpenAI 합류를 발표했다. "Peter Steinberger는 차세대 개인 에이전트를 이끌기 위해 OpenAI에 합류한다. 그는 천재다." OpenClaw 자체는 독립 재단으로 이관되고, OpenAI가 재정 후원자가 된다. 사실상 인재 인수(acqui-hire)다.

그 천재가 만든 에이전트가 발표 8일 뒤에 AI 안전 전문가의 받은편지함을 날렸다. OpenAI가 인수한 에이전트가 Meta의 안전 책임자를 공격한 셈이다. 의도는 없었겠지만, 업계 역학 관계를 생각하면 상징적이다.

천재의 코드와 천재의 감독 사이에도 이 정도 간극이 있다면, 보통의 개발자와 보통의 사용자 사이의 간극은 얼마나 넓을까.

OpenClaw는 에이전트형 AI의 가능성을 보여줬다. 메신저 하나로 이메일, 캘린더, 파일, 스마트홈까지 제어하는 개인 비서. 미래는 분명 그 방향이다. 하지만 미래로 가는 길에 안전벨트가 없다. 지시가 사라지고, 멈추라는 말이 무시되고, 물리적으로 뛰어가야 멈출 수 있는 에이전트를 수십만 명이 설치해서 자기 이메일과 파일에 연결하고 있다.

AI 에이전트 시대의 진짜 질문은 "에이전트가 얼마나 똑똑한가"가 아니다. **"에이전트가 잘못될 때, 얼마나 빨리 멈출 수 있는가"**다. 지금은 대답이 "Mac mini까지 뛰어가야 한다"이다. 그리고 Mac mini가 옆에 있었으니까 망정이지, 외출 중이었다면 돌아올 때까지 에이전트는 계속 돌았을 것이다.