Codex가 스스로 '위험하다' 인정한 첫 AI다

만든 회사가 먼저 경고했다

사이버 보안 자물쇠와 디지털 회로 — OpenAI가 자사 모델의 사이버보안 위험을 스스로 High로 분류한 전례 없는 사건이다

2026년 2월 5일, OpenAI가 GPT-5.3-Codex를 공개했다. 코딩 벤치마크에서 역대급 성능을 기록한 이 모델과 함께, 이례적인 문서가 하나 딸려 나왔다. 68페이지짜리 시스템 카드(System Card)다. 그 안에 한 문장이 있었다. "사이버보안 영역에서 High 등급으로 분류한 첫 번째 모델이다."

AI 기업이 자사 제품의 위험성을 스스로 인정한 것은 이번이 처음이다. 경쟁사가 지적한 것도, 규제 기관이 요구한 것도 아니다. OpenAI가 자체 준비성 프레임워크(Preparedness Framework)에 따라 내린 판단이다. CEO Sam Altman은 X(구 트위터)에 직접 "우리의 준비성 프레임워크에서 사이버보안 부문 High를 기록한 첫 모델"이라고 공개했다. 보통 CEO가 자기 제품의 위험성을 대중에게 알리는 일은 없다.

이 글은 그 시스템 카드의 의미를 파헤친다. Codex가 왜 위험하다고 판단됐는지, OpenAI는 어떤 조치를 취했는지, 그리고 이 선례가 AI 산업 전체에 어떤 파장을 일으키는지 살펴본다.

Preparedness Framework, 그 기준은 무엇인가

OpenAI의 Preparedness Framework는 AI 모델의 위험도를 평가하는 내부 기준이다. 2023년 처음 공개된 이 프레임워크는 사이버보안, 생물학적 위협, 설득(persuasion), 자율성(autonomy) 네 가지 영역에서 모델의 위험 수준을 Low, Medium, High, Critical로 분류한다.

각 등급에는 명확한 정의가 있다. 사이버보안 영역에서 High는 "합리적으로 강화된 목표에 대한 사이버 작전의 종단간 자동화, 또는 운용상 유의미한 취약점의 발견과 악용을 자동화함으로써, 사이버 작전의 확장에 존재하는 기존 병목을 제거하는 수준"으로 정의된다. 쉽게 말해, 이 모델이 해킹 공격의 핵심 단계를 자동화할 수 있을 정도로 능력이 충분하다는 뜻이다.

여기서 미묘한 지점이 있다. OpenAI는 시스템 카드에서 "확정적 증거는 없다(does not have definitive evidence)"고 밝혔다. GPT-5.3-Codex가 실제로 종단간 사이버 공격을 완전히 자동화할 수 있다고 입증된 것은 아니다. 하지만 그 가능성을 배제할 수도 없다는 이유로, 예방적 차원에서 High 등급을 부여했다. 이 접근법은 기존 AI 기업들의 태도와 근본적으로 다르다. 대부분의 AI 기업은 위험이 "입증되지 않았으므로 안전하다"고 주장한다. OpenAI는 "입증되지 않았지만 안전하다고 단정할 수 없다"는 논리를 택한 것이다.

Critical 등급은 한 단계 위다. "국가 안보에 준하는 위협을 초래할 수 있는 수준"이다. Critical에 도달하면 모델 배포 자체가 금지된다. High는 배포는 가능하지만, 강화된 안전장치가 의무적으로 요구되는 단계다. GPT-5.3-Codex는 그 경계에 서 있다.

Codex는 무엇이 다른가

서버실과 네트워크 장비 — GPT-5.3-Codex는 코드를 넘어 운영 체제 수준의 작업을 자율적으로 수행할 수 있는 에이전틱 AI다

GPT-5.3-Codex는 단순한 코딩 보조 도구가 아니다. OpenAI는 이 모델을 "범용 컴퓨터 작업 에이전트(general work-on-a-computer agent)"로 포지셔닝했다. 코드를 작성하는 것은 물론이고, 디버깅, 배포, 모니터링, 테스트 실행, 심지어 프레젠테이션과 스프레드시트 작성까지 수행한다. 수 시간에서 수일까지 자율적으로 작동할 수 있다.

벤치마크 수치가 이 능력을 뒷받침한다.

벤치마크	GPT-5.3-Codex	GPT-5.2-Codex	비고
SWE-Bench Pro	56.8%	56.4%	실제 소프트웨어 엔지니어링 과제
Terminal-Bench 2.0	77.3%	68.1%	터미널 기반 에이전틱 작업
OSWorld-Verified	64.7%	57.2%	OS 수준 범용 작업
GDPval-AA Elo	1,633	-	전문가 수준 과제 평가

SWE-Bench Pro에서의 0.4%p 차이는 사소해 보인다. 하지만 Terminal-Bench 2.0에서 9.2%p 격차는 의미가 다르다. 터미널 환경에서 시스템 명령어를 조합해 복잡한 작업을 수행하는 능력이 급격히 향상됐다는 뜻이기 때문이다. 이 능력은 개발에도 쓸 수 있지만, 침투 테스트와 공격 자동화에도 그대로 적용된다.

더 주목할 부분은 속도다. OpenAI에 따르면 GPT-5.3-Codex는 이전 모델 대비 25% 빠르게 작동하며, 더 적은 토큰으로 같은 결과를 달성한다. 빠르고 효율적인 코딩 AI는 개발자에게 축복이지만, 공격자에게도 같은 의미다.

그리고 이 모델에는 전례 없는 특징이 하나 더 있다. GPT-5.3-Codex는 자신의 개발에 직접 참여한 첫 번째 AI 모델이다. OpenAI는 "GPT-5.3-Codex는 자체 학습 파이프라인의 디버깅, 배포 인프라 관리, 개발 과정의 테스트 실패 진단에 활용됐다"고 밝혔다. 초기 버전의 Codex를 사용해 이후 버전을 개선하는 재귀적 자기 개선(recursive self-improvement)이 실제 프로덕션 환경에서 일어난 것이다. 수십 년간 이론에 머물던 개념이 현실이 됐다.

OpenAI가 세운 방어선

GPT-5.3-Codex에 High 등급을 부여한 뒤, OpenAI는 "역대 가장 포괄적인 사이버보안 안전 스택"을 배치했다고 주장한다. 구체적으로 네 가지 계층으로 구성된다.

첫째, **안전 훈련(safety training)**이다. 모델 자체에 악의적 사용을 거부하도록 학습시킨 것이다. 악성 코드 생성 요청, 취약점 악용 방법 안내 같은 프롬프트에 대해 거부 응답을 하도록 미세 조정됐다. 하지만 안전 훈련의 한계는 잘 알려져 있다. 탈옥(jailbreak) 기법은 매달 새로운 변종이 등장하고, 충분히 정교한 프롬프트는 대부분의 안전 가드를 우회할 수 있다.

둘째, **자동 모니터링(automated monitoring)**이다. API 호출 패턴을 실시간으로 분석해 의심스러운 사용을 탐지한다. 특정 유형의 코드 생성 요청이 급증하거나, 알려진 공격 패턴과 일치하는 프롬프트가 감지되면 자동으로 플래그가 설정된다. 위협 인텔리전스 파이프라인과 연동되어, 새로운 공격 기법이 발견되면 모니터링 규칙에 반영된다.

셋째, **신뢰 기반 접근 제어(Trusted Access for Cyber)**다. 이것이 가장 핵심적인 변화다. GPT-5.3-Codex의 모든 기능이 모든 사용자에게 열려 있지 않다. 일반 유료 ChatGPT 사용자는 일상적인 개발 작업에만 모델을 활용할 수 있다. 고급 사이버보안 관련 기능은 별도의 검증 절차를 통과한 보안 전문가에게만 제공된다. 신원 확인, 소속 조직 검증, 사용 목적 심사를 거쳐야 한다. 무제한 API 접근은 원칙적으로 차단됐다.

넷째, **위협 인텔리전스 집행 파이프라인(enforcement pipeline)**이다. 악의적 사용이 확인된 계정은 즉시 차단되며, 관련 패턴이 글로벌 차단 목록에 추가된다.

이와 별도로 OpenAI는 1,000만 달러(약 143억 원) 규모의 API 크레딧을 사이버 방어 연구에 투입한다고 발표했다. 취약점 발견 경험이 있는 팀, 오픈소스 소프트웨어 기여자, 핵심 인프라 방어자를 우선 대상으로 한다. 같은 모델이 공격에 쓰일 수 있다는 것을 인정하면서, 방어자에게 먼저 무기를 쥐여주겠다는 전략이다.

캘리포니아 법과 충돌하다

AI 규제와 거버넌스를 상징하는 디지털 인터페이스 — GPT-5.3-Codex의 출시는 캘리포니아의 새 AI 안전법 SB 53과 정면충돌했다

GPT-5.3-Codex 출시 5일 뒤인 2월 10일, 문제가 터졌다. AI 안전 감시 단체인 **미다스 프로젝트(The Midas Project)**가 OpenAI의 캘리포니아 AI 안전법 위반 혐의를 제기한 것이다.

쟁점은 캘리포니아주의 SB 53이다. 2025년 9월 Gavin Newsom 주지사가 서명하고 2026년 1월 발효된 이 법은, 주요 AI 기업에 자체 안전 프레임워크를 공개하고 이를 준수하도록 의무화한다. 핵심은 "50명 이상의 사망 또는 10억 달러 이상의 재산 피해를 초래할 수 있는 재앙적 위험"을 방지하기 위한 구체적 조치를 요구한다는 것이다. 위반 시 수백만 달러의 벌금이 부과될 수 있다.

미다스 프로젝트의 주장은 명쾌하다. OpenAI가 스스로 GPT-5.3-Codex를 사이버보안 High 위험으로 분류했다. 그런데 자체 Preparedness Framework가 요구하는 **오정렬 방지 안전장치(misalignment safeguards)**를 배포 전에 충분히 구현하지 않은 것처럼 보인다는 것이다. 자기가 정한 규칙을 자기가 어긴 셈이라는 비판이다.

미다스 프로젝트 설립자 Tyler Johnston은 "SB 53이 설정한 기준이 얼마나 낮은지를 생각하면, 이조차 지키지 않았다는 것은 특히 당혹스럽다"고 말했다. 비영리 기관 Encode의 주 정책 담당 부사장 Nathan Calvin은 더 날카롭게 지적했다. "자신들의 계획을 따르지 않았다고 인정하거나 출시 전에 업데이트하는 대신, OpenAI는 기준이 모호했다고 주장하는 것처럼 보인다."

OpenAI의 반론도 있다. 대변인은 Fortune에 "SB 53을 포함한 최전선 안전 법률 준수에 자신이 있다"고 말했다. 구체적으로는, 강화된 안전장치가 요구되는 조건이 사이버보안 고위험과 "장거리 자율성(long-range autonomy)"이 동시에 충족될 때라고 해석했다. GPT-5.3-Codex는 사이버보안에서는 High이지만 자율성 영역에서는 해당하지 않으므로, 추가 안전장치 의무가 발동되지 않는다는 논리다.

이 해석이 법적으로 통할지는 아직 미지수다. 하지만 한 가지는 분명하다. AI 기업이 자사 모델의 위험을 인정하는 순간, 그 인정 자체가 법적 책임의 근거가 된다는 것이다. OpenAI는 투명성을 위해 High 등급을 공개했지만, 바로 그 투명성이 규제 리스크를 만들어낸 역설적 상황이다.

경쟁사들은 왜 침묵하는가

GPT-5.3-Codex의 시스템 카드가 공개된 뒤, AI 업계의 반응은 흥미로웠다. 대부분이 침묵했다. Anthropic, Google DeepMind, Meta AI 중 어느 곳도 자사 모델에 대한 유사한 사이버보안 위험 평가를 공개하지 않았다.

이 침묵에는 두 가지 해석이 가능하다.

하나는 경쟁 모델이 실제로 GPT-5.3-Codex만큼 사이버보안 능력이 뛰어나지 않다는 것이다. 하지만 이 해석은 설득력이 약하다. Anthropic의 Claude Opus 4.6은 SWE-Bench Verified에서 80.8%를 기록하며 코딩 벤치마크 최상위권에 있다. Anthropic은 불과 2주 전 Claude Code Security를 발표하면서, Opus 4.6이 오픈소스 프로젝트에서 500개 이상의 고위험 취약점을 발견했다고 밝힌 바 있다. 취약점을 찾는 능력과 취약점을 악용하는 능력은 동전의 양면이다. 방어에 쓸 수 있는 모델이 공격에 쓰일 수 있다는 건 Anthropic도 인정한 사실이다.

다른 해석은, 경쟁사들이 OpenAI의 선례를 경계하고 있다는 것이다. 위험을 공개하면 SB 53 같은 법률의 타깃이 된다. 미다스 프로젝트가 OpenAI를 겨냥한 것처럼, 위험을 인정하는 순간 "그러면 왜 충분한 안전장치 없이 배포했느냐"는 질문이 뒤따른다. 위험을 공개하지 않으면 법적 리스크는 줄지만, 나중에 문제가 터졌을 때 "알고도 공개하지 않았다"는 더 큰 비난에 직면한다.

이것은 AI 안전 공개의 죄수의 딜레마다. 모든 기업이 동시에 투명하게 공개하면 산업 전체의 신뢰가 올라간다. 하지만 한 기업만 공개하면 그 기업만 규제의 십자포화를 맞는다. OpenAI가 지금 겪고 있는 것이 정확히 그 상황이다.

OpenAI의 시스템 카드 발표는 또 하나의 흥미로운 타이밍과 맞물린다. GPT-5.3-Codex는 Anthropic의 모델 출시와 불과 몇 분 차이로 발표됐다. Anthropic이 15분 앞당겨 출시한 것으로 알려졌다. 경쟁이 이 정도로 과열된 상황에서, 한쪽은 위험을 인정하고 다른 쪽은 침묵하는 비대칭은 오래 지속되기 어렵다.

자기가 만든 칼의 위험을 말하다

서버 랙과 파란 빛의 데이터 센터 — AI 모델이 스스로의 위험성을 인정한 첫 사례는 산업 전체의 전환점이 될 수 있다

GPT-5.3-Codex가 자신의 개발에 참여했다는 사실과, 자신이 위험하다고 분류됐다는 사실을 연결하면 묘한 구도가 드러난다. 이 모델은 자기 자신을 개선하는 데 쓰였고, 그 결과 만들어진 자신이 잠재적으로 위험하다고 판정받았다. AI가 재귀적으로 자신을 개선할수록 능력이 올라가고, 능력이 올라갈수록 위험도가 올라가는 구조다.

OpenAI는 이 딜레마를 정면으로 인식하고 있다. 시스템 카드에서 "확정적 증거가 없음에도 예방적으로 High를 부여했다"고 쓴 것은, 능력 향상의 속도가 안전 평가의 속도를 앞지를 수 있다는 우려의 표현이다. 모델이 정확히 무엇을 할 수 있는지 완전히 파악하기 전에, 일단 최악의 시나리오를 가정하고 안전장치를 설치하겠다는 것이다.

이 접근법은 제약 산업의 **예방 원칙(precautionary principle)**과 유사하다. 신약이 해롭다는 확정적 증거가 없더라도, 잠재적 위험이 식별되면 추가 임상시험을 거치게 하는 것이다. AI 산업에서 이 원칙을 자발적으로 적용한 기업은 OpenAI가 처음이다.

하지만 의문도 남는다. OpenAI의 Preparedness Framework는 어디까지나 자체 기준이다. 평가 방법론, 테스트 세부 사항, 판단 근거가 모두 OpenAI 내부에서 결정된다. 외부 감사는 없다. 동료 심사(peer review)도 없다. "High지만 배포해도 된다"는 판단이 정말 엄밀한 분석의 결과인지, 아니면 "위험하지만 경쟁에서 뒤처질 수 없다"는 사업적 판단이 개입했는지는 외부에서 검증할 방법이 없다.

시스템 카드 68페이지 중 구체적인 사이버보안 테스트 시나리오와 결과가 차지하는 비중은 제한적이다. "프록시 평가(proxy evaluations)"를 사용했다고 밝혔지만, 장거리 자율성에 대한 확정적 평가 방법론이 부재하다는 것도 인정했다. 평가 도구 자체가 아직 완성되지 않은 상태에서, 모델이 안전하다는 판단을 내린 셈이다.

1,000만 달러의 방패와 그 한계

OpenAI가 사이버 방어 연구에 투입하겠다는 1,000만 달러의 API 크레딧은 상징적 의미와 실질적 한계를 동시에 가진다.

상징적으로는, AI 기업이 자사 모델의 이중 용도(dual-use) 특성을 공식 인정하고 방어 측에 자원을 배분한 첫 사례다. Anthropic이 Claude Code Security에서 오픈소스 메인테이너에게 무료 접근을 제공한 것과 유사한 맥락이다. 공격 도구가 될 수 있는 기술을 방어 도구로 먼저 배포하겠다는 전략이다.

실질적으로는 규모가 문제다. OpenAI의 2025년 연간 매출은 130억 달러를 넘겼다. 1,000만 달러는 매출의 0.08%에도 미치지 않는다. GPT-5.3-Codex 하나의 학습 비용이 수억 달러에 달하는 것으로 추정되는 상황에서, 방어 연구비 1,000만 달러는 면죄부에 가깝다는 비판이 나올 수 있다.

또한 이 크레딧의 수혜자 선정 기준도 모호하다. "취약점 발견 경험이 있는 팀, 오픈소스 기여자, 핵심 인프라 방어자"를 우선한다고 했지만, 구체적인 심사 기준과 절차는 공개되지 않았다. 방어 연구에 크레딧을 준다는 것은 곧 OpenAI의 API를 사용하게 만든다는 뜻이기도 하다. 보안 연구 커뮤니티를 자사 생태계에 묶어두는 사업 전략과 사회적 책임이 겹치는 지점이다.

Anthropic과 비교하면 접근법의 차이가 드러난다. Anthropic은 Claude Code Security라는 전용 보안 제품을 만들었다. 취약점 발견, 검증, 패치 제안까지 일관된 파이프라인을 제공한다. OpenAI는 범용 모델에 접근 제한과 크레딧을 제공하는 방식을 택했다. 전용 도구 대 범용 모델 플러스 안전장치, 어느 접근법이 더 효과적인지는 아직 답이 없다.

구분	OpenAI (GPT-5.3-Codex)	Anthropic (Claude Code Security)
접근법	범용 모델 + 접근 제어	전용 보안 제품
위험 인정	시스템 카드에서 High 공개	이중 용도 인정
방어 투자	1,000만 달러 API 크레딧	오픈소스 무료 접근
접근 제한	Trusted Access 프로그램	Enterprise/Team 한정 프리뷰
외부 감사	없음	없음

두 회사 모두 외부 독립 감사가 없다는 공통점이 있다. 자체 평가의 투명성만으로는 신뢰를 완전히 확보하기 어렵다.

위험을 인정하는 것이 진짜 위험한 이유

OpenAI의 선택은 AI 산업에 새로운 딜레마를 던졌다. 위험을 인정하면 규제의 표적이 되고, 인정하지 않으면 사고가 터졌을 때 은폐의 책임을 진다. 어느 쪽이든 리스크다.

SB 53의 존재가 이 딜레마를 극적으로 만든다. 이 법은 AI 기업에 자체 안전 프레임워크를 공개하고 준수하도록 요구한다. OpenAI는 Preparedness Framework를 공개했고, 그에 따라 GPT-5.3-Codex를 High로 분류했다. 그런데 그 분류에 맞는 안전장치를 충분히 갖췄는지에 대해 논란이 생겼다. 법이 요구한 투명성이 법적 공격의 빌미가 된 것이다.

이 선례의 파급 효과는 크다. 앞으로 AI 기업들은 두 가지 유혹에 빠질 수 있다. 하나는 위험 등급을 낮게 매기는 것이다. 평가 기준을 느슨하게 설정하면 High 등급을 피할 수 있고, 법적 리스크도 줄어든다. 다른 하나는 아예 평가를 공개하지 않는 것이다. SB 53이 요구하는 최소한만 충족하고, 시스템 카드 같은 상세 문서는 발행하지 않는 전략이다.

어느 쪽이든 사회에는 좋지 않다. AI 모델의 실제 위험을 파악할 수 있는 주체는 개발사뿐이다. 외부 연구자가 접근할 수 있는 정보에는 한계가 있다. 개발사가 위험 평가를 축소하거나 은폐하면, 사회는 눈을 가린 채 위험과 공존하게 된다.

OpenAI가 GPT-5.3-Codex에 대해 한 일은, 결함이 있지만 올바른 방향이다. AI 기업이 자사 모델의 위험을 인정하고, 불완전하나마 안전장치를 갖추고, 그 과정을 공개하는 것. 문제는 이 행동이 보상받지 못하고 오히려 벌을 받는 구조에 있다. 투명성에 인센티브가 없다면, 투명성은 지속되지 않는다.

AI 안전은 기술의 문제인 동시에 제도의 문제다. SB 53은 첫 걸음이었지만, "위험을 인정한 기업이 인정하지 않은 기업보다 불이익을 받는" 역설을 해결하지 못했다. 다음 법안이 이 역설을 풀지 못한다면, AI 기업들의 시스템 카드는 점점 얇아질 것이다. GPT-5.3-Codex의 68페이지가 AI 투명성의 정점이었다고 기억될 수도 있다.

출처: