- Authors

- Name
- 오늘의 바이브
수십 년간 못 찾은 버그를 AI가 찾았다

2026년 2월 5일, Anthropic이 충격적인 발표를 했다. 최신 모델 Claude Opus 4.6이 오픈소스 소프트웨어에서 500개 이상의 고위험 제로데이 취약점을 발견했다. 제로데이란 개발자조차 모르는 보안 결함이다. 패치가 없다. 공격자가 먼저 발견하면 막을 방법이 없다.
놀라운 건 방법이다. Anthropic 레드팀은 Claude를 가상 머신에 배치하고, 표준 도구만 제공했다. Python, 디버거, 퍼저 같은 기본 유틸리티다. 특별한 지시사항도, 맞춤형 도구도 없었다. "기본 상태"에서 무엇을 할 수 있는지 테스트한 것이다.
결과는 경악스러웠다. Ghostscript, OpenSC, CGIF 같은 프로젝트에서 치명적 결함이 쏟아졌다. 이 프로젝트들은 수십 년간 퍼저가 돌아간, 수백만 시간의 CPU 시간이 투입된 코드베이스다. 인간 보안 연구원들이 이미 샅샅이 뒤졌다고 믿었던 코드다.
그런데 AI가 단번에 500개를 찾았다.
Ghostscript: Git 히스토리를 읽는 AI
발견된 취약점 중 가장 인상적인 사례는 Ghostscript다. PDF와 PostScript를 처리하는 핵심 라이브러리로, 거의 모든 리눅스 시스템에 설치되어 있다.
Claude는 Git 커밋 히스토리를 분석했다. 과거에 패치된 스택 범위 검사 문제를 발견하고, 비슷한 패턴을 가진 미패치 코드 경로를 추적했다. 인간 연구원이라면 수백 개의 커밋을 일일이 읽어야 할 작업이다. AI는 패턴을 인식하고, 유사한 실수가 반복된 곳을 찾아냈다.
OpenSC의 경우는 더 미묘했다. 스마트카드 유틸리티에서 연속적인 strcat 호출을 추적하다 버퍼 오버플로우를 발견했다. 기존 퍼저들은 이 코드를 제대로 테스트하지 못했다. 사전 조건이 복잡해서 해당 코드 경로에 도달하기 어려웠기 때문이다.
가장 놀라운 건 CGIF 사례다. GIF 파일 처리 라이브러리에서 힙 버퍼 오버플로우를 찾았는데, 이건 개념적 이해가 필요한 버그였다.
"LZW 압축 알고리즘이 심볼 테이블을 가득 채우면, 압축 크기가 비압축 크기를 초과할 수 있다."
Claude는 이 개념을 이해하고, 최악의 입력을 만들어 버그를 트리거했다. 심지어 직접 PoC(개념 증명 코드)를 작성해서 취약점이 실제로 작동함을 증명했다.
90일 공개 규범의 종말

보안 업계에는 **책임 있는 공개(Responsible Disclosure)**라는 규범이 있다. 취약점을 발견하면 개발자에게 먼저 알리고, 90일 동안 패치할 시간을 준 뒤 공개한다. Google의 Project Zero가 이 기준을 정립했다.
그런데 AI가 하루에 수십 개씩 취약점을 찾으면 어떻게 될까?
Anthropic 레드팀 보고서는 이렇게 경고한다.
"언어 모델은 이미 새로운 취약점을 식별할 수 있으며, 곧 전문 인간 연구원의 속도와 규모를 초과할 것이다. 기존의 90일 공개 규범은 LLM이 발견하는 버그의 속도와 양을 감당하지 못할 수 있다."
생각해보라. 한 명의 보안 연구원이 1년에 찾는 제로데이는 기껏해야 수십 개다. 그것도 최고 수준의 전문가 이야기다. Claude는 테스트 기간 동안 500개를 찾았다. 상용화되고 24시간 돌아가면?
패치를 만드는 쪽은 인간이다. 코드를 리뷰하고, 수정하고, 테스트하고, 배포하는 데 시간이 걸린다. 취약점 발견 속도가 패치 속도를 압도하면, 언패치된 취약점이 쌓인다. 공격자에게는 천국이다.
OpenAI는 왜 신중한가
같은 시기에 OpenAI도 GPT-5.3-Codex를 발표했다. 코딩 능력과 보안 분석에서 역대 최고 성능을 보인다. 그런데 접근 방식이 Anthropic과 다르다.
OpenAI는 이 모델을 "High capability" for cybersecurity로 분류했다. 역사상 처음이다. 그리고 이례적으로 빠듯한 제한을 걸었다.
| 항목 | Anthropic (Opus 4.6) | OpenAI (GPT-5.3-Codex) |
|---|---|---|
| 접근성 | 일반 API 제공 | 제한된 접근, API 지연 |
| 보안 연구 프로그램 | 레드팀 공개 보고서 | Trusted Access for Cyber (검증 필요) |
| 취약점 발견 공개 | 500+ 제로데이 발표 | 구체적 수치 미공개 |
| API 크레딧 지원 | 언급 없음 | 1,000만 달러 방어 연구 지원 |
OpenAI는 Trusted Access for Cyber 프로그램을 시작했다. 검증된 보안 연구원에게만 고급 기능을 제공한다. 신원 확인과 신뢰 기반 프레임워크로, 악의적 사용자를 차단하겠다는 것이다.
OpenAI의 시스템 카드는 이렇게 밝힌다.
"이 모델이 사이버 공격을 완전히 자동화할 수 있다는 '확정적 증거'는 없다. 하지만 자동화되거나 대규모로 사용되면 실질적인 피해를 야기할 수 있다고 믿는다."
두 회사의 차이가 흥미롭다. Anthropic은 투명성을 선택했다. "우리 AI가 이만큼 강력하다"를 공개적으로 보여줬다. OpenAI는 통제를 선택했다. 능력은 인정하되, 접근을 제한한다.
어느 쪽이 옳은지는 아직 모른다.
양날의 검: 방어와 공격

AI가 취약점을 찾는 능력은 중립적이다. 누가 쓰느냐에 따라 방패가 되기도, 칼이 되기도 한다.
방어자 입장에서 보면:
- 수동 코드 리뷰보다 빠르고 철저하다
- 인간이 놓치는 패턴을 잡아낸다
- 출시 전에 버그를 잡을 수 있다
- 레거시 코드베이스를 재점검할 수 있다
공격자 입장에서 보면:
- 같은 도구로 제로데이를 찾을 수 있다
- 대규모 자동화가 가능하다
- 발견 즉시 익스플로잇을 생성할 수 있다
- 방어자보다 먼저 찾으면 이긴다
문제는 속도 비대칭이다. 공격자는 취약점 하나만 찾으면 된다. 방어자는 모든 취약점을 찾아야 한다. AI가 양쪽 모두에게 주어지면, 이 비대칭은 더 극단적으로 벌어진다.
보안 전문 매체 SecurityWeek는 이렇게 분석한다.
"2026년은 방어가 AI 기반 공격의 속도를 따라잡아야 하는 해다. 적응하지 못하면 위험하게 뒤처진다."
National Defense Magazine의 칼럼은 더 직설적이다.
"AI는 사이버 공격과 방어 모두를 위한 양날의 검이다. 한때 유망했던 사건 대응과 위협 탐지 자동화 기술이, 이제 방어자와 공격자 모두를 강화하고 있다."
제로데이의 민주화
과거에 제로데이를 찾으려면 전문 지식이 필요했다. 어셈블리를 읽고, 메모리 구조를 이해하고, 퍼저를 돌리고, 크래시를 분석하는 기술이다. 이런 능력을 가진 사람은 전 세계에 수천 명 수준이다.
AI는 이 진입 장벽을 무너뜨린다.
Claude Opus 4.6에게 "이 코드에서 메모리 안전 문제를 찾아줘"라고 하면, 몇 분 내에 후보 목록이 나온다. 전문 지식이 없어도 된다. AI가 대신 분석한다.
이건 민주화이기도 하다. 소규모 개발팀도 자기 코드를 철저히 점검할 수 있다. 보안 전문가를 고용할 예산이 없는 오픈소스 프로젝트도 AI의 도움을 받을 수 있다.
동시에 위험의 민주화이기도 하다. 기술이 없던 사람들도 취약점을 찾을 수 있게 된다. 스크립트 키디가 제로데이를 손에 쥐는 시나리오가 현실이 됐다.
Anthropic은 이 위험을 인식하고 있다. Opus 4.6 출시와 함께 새로운 보안 레이어를 도입했다.
- 사이버 전용 프로브: 모델의 내부 활성화를 모니터링해서 악의적 사용 패턴을 감지한다
- 실시간 개입: 악성으로 판단되는 트래픽을 차단한다
- 보안 연구 커뮤니티 협력: 발견된 취약점을 책임 있게 공개한다
충분할까? 아무도 모른다.
패치 속도 vs 발견 속도

AI가 버그를 찾는 속도는 기하급수적으로 빨라지고 있다. 문제는 패치 속도가 따라가지 못한다는 것이다.
취약점이 발견되면 어떤 과정을 거치는가?
- 취약점 확인 및 검증
- 영향 범위 분석
- 패치 코드 작성
- 코드 리뷰
- 테스트 (회귀 테스트 포함)
- 릴리스 준비
- 사용자 배포 및 적용
이 과정에 주 단위의 시간이 걸린다. 긴급 패치도 며칠은 필요하다. 그런데 AI는 하루에 수십 개씩 찾는다.
Trend Micro는 최근 ÆSIR 시스템을 발표했다. AI 개발 속도와 보안 연구 속도 사이의 격차를 메우기 위한 도구다. 기계 속도의 자동화와 전문가 감독을 결합해서, 취약점 발견부터 생애주기 관리까지 빠르게 처리한다.
이런 도구가 필수가 되고 있다. AI가 찾는 속도를 인간만으로는 감당할 수 없기 때문이다.
Anthropic 보고서의 표현을 빌리면:
"이건 시작이다. 규모가 확대되면 추가 정보를 공개할 것이다."
500개는 시작이라는 뜻이다.
보안 산업의 지각변동
이 변화가 보안 산업에 미치는 영향은 심대하다.
자동화 검사 도구 시장 폭발: AI 기반 SAST(정적 애플리케이션 보안 테스트) 도구가 필수가 된다. 기존의 규칙 기반 스캐너로는 AI가 찾는 수준의 버그를 잡지 못한다.
버그 바운티 변화: 버그 바운티 프로그램은 AI 발견 취약점을 어떻게 처리할지 결정해야 한다. 인간이 찾은 버그와 동일하게 보상하는가? AI가 대량 제출하면 시스템이 마비되지 않는가?
보안 감사 비용 하락: AI가 초기 스캔을 담당하면, 인간 감사자는 고급 분석에 집중할 수 있다. 전체 비용이 내려가면서 더 많은 프로젝트가 감사를 받게 된다.
공격 비용 하락: 반대로 공격자의 진입 비용도 내려간다. 제로데이를 찾는 데 드는 시간과 비용이 급감한다.
정부 규제 압박: AI 보안 능력에 대한 규제 논의가 시작될 것이다. 이미 EU AI Act가 고위험 AI 시스템을 규제하고 있다. 사이버 공격 능력을 가진 AI는 어떻게 다뤄야 하는가?
결론: 판도라의 상자는 이미 열렸다
Claude Opus 4.6이 500개 제로데이를 찾았다는 사실은 기술적 성취가 아니다. 경고다.
AI가 인간 보안 연구원을 능가하는 속도로 취약점을 찾을 수 있다. 이건 이미 현실이다. 2026년 2월 현재, 우리는 이 현실과 함께 살아야 한다.
방어자에게는 도구다. 출시 전에 버그를 잡고, 레거시 코드를 점검하고, 보안 태세를 강화할 수 있다. 이 능력을 적극 활용해야 한다. OpenAI의 1,000만 달러 방어 연구 지원 같은 프로그램이 더 필요하다.
공격자에게는 무기다. 같은 능력으로 제로데이를 찾고, 익스플로잇을 자동 생성하고, 대규모 공격을 시도할 수 있다. 이 위험을 과소평가하면 안 된다.
핵심 질문은 이것이다: 누가 먼저 찾는가?
방어자가 먼저 찾으면 패치한다. 공격자가 먼저 찾으면 침투한다. AI가 양쪽 모두에게 주어진 지금, 이 경쟁은 더 치열해진다.
Anthropic이 500개 제로데이를 공개한 건 책임 있는 공개다. 발견한 취약점을 개발자에게 알리고, 패치를 기다리고, 커뮤니티와 협력했다. 하지만 같은 능력을 가진 AI를 악의적으로 사용하는 누군가는, 이런 절차를 거치지 않는다.
양날의 검은 이미 뽑혔다. 어느 쪽 날이 먼저 닿을지는, 우리가 얼마나 빨리 움직이느냐에 달렸다.
출처:
- Anthropic's Claude Opus 4.6 uncovers 500 zero-day flaws in open-source code — Axios
- 0-Days Report — Anthropic Red Team
- Claude Opus 4.6 Finds 500+ High-Severity Flaws — The Hacker News
- Anthropic's newest model raises cybersecurity risks — Fortune
- Claude AI finds 500 high-severity software vulnerabilities — InfoWorld
- OpenAI GPT-5.3-Codex warns unprecedented cybersecurity risks — Fortune
- Introducing Trusted Access for Cyber — OpenAI
- 2026 Will Be the Year Defense Must Match the Speed of AI-Powered Offense — The Fast Mode
- Algorithmic Warfare: AI a Double-Edged Sword — National Defense Magazine
- Introducing ÆSIR: Finding Zero-Day Vulnerabilities at the Speed of AI — Trend Micro
- Unsplash — 이미지 출처