GPT-5.3이 '고위험' 판정받은 첫 AI인 이유

역대 최초의 '고위험' 판정

2026년 2월 5일, OpenAI가 GPT-5.3-Codex를 발표했다. 코딩 벤치마크에서 이전 모델들을 압도하는 성능이다. 그런데 이번 발표에는 전례 없는 경고가 붙었다. OpenAI 내부 위험 평가 시스템인 Preparedness Framework에서 사이버보안 항목이 **"High"**로 분류된 것이다.

OpenAI 역사상 처음 있는 일이다. 지금까지 어떤 모델도 사이버보안에서 고위험 등급을 받은 적이 없다. GPT-4도, GPT-5도 아니었다. GPT-5.3-Codex가 최초다.

OpenAI의 시스템 카드는 이렇게 밝힌다.

"이 모델은 의미 있는 실제 사이버 피해를 가능하게 할 만큼 충분히 숙련되어 있다."

'의미 있는 실제 피해'라는 표현이 핵심이다. 이론적 위험이 아니라 현실적 위협이라는 뜻이다. OpenAI 스스로 자사 모델이 사이버 공격에 악용될 수 있음을 인정한 셈이다.

Preparedness Framework란 무엇인가

Preparedness Framework는 OpenAI가 2023년 말 도입한 내부 위험 평가 체계다. 새로운 모델을 출시하기 전에 여러 위험 영역을 평가한다. 사이버보안, 생물학적 위협, 설득력, 자율성 등의 항목이 있다.

각 항목은 네 단계로 분류된다.

등급	의미	조치
Low	기존 도구 대비 추가 위험 미미	일반 출시 가능
Medium	일부 위험 요소 존재	모니터링 하에 출시
High	실질적 피해 가능성	제한된 접근, 추가 안전장치
Critical	대규모 피해 또는 복구 불가능한 위험	출시 불가

GPT-5.3-Codex는 사이버보안에서 High를 받았다. Critical이 아니라서 출시는 가능하지만, 전례 없는 제한이 붙는다. OpenAI가 자체 기준으로도 이 모델이 위험하다고 인정한 것이다.

왜 이 등급인가? OpenAI의 설명은 간단하다. 이 모델의 코딩 능력이 너무 뛰어나기 때문이다. 취약점을 찾고, 익스플로잇을 작성하고, 공격 도구를 생성하는 능력이 이전 모델과 차원이 다르다.

무엇이 달라졌나

GPT-5.3-Codex의 코딩 벤치마크 성적은 충격적이다. OpenAI는 구체적인 수치를 모두 공개하지 않았지만, 발표된 내용만으로도 도약의 규모가 드러난다.

SWE-bench 성능이 이전 버전 대비 크게 향상됐다. 실제 GitHub 이슈를 해결하는 테스트에서 GPT-5는 이미 인간 개발자 평균을 넘었는데, 5.3은 그보다 더 높다. 단순히 코드를 생성하는 게 아니라, 복잡한 코드베이스를 이해하고 수정하는 능력이다.

에이전트 코딩 능력도 도약했다. 터미널에서 자율적으로 작업하고, 파일을 탐색하고, 도구를 사용하고, 오류를 디버깅한다. OpenAI는 이를 "agentic capabilities"라고 부른다. 지시를 받고 코드를 생성하는 수준을 넘어, 스스로 문제를 해결하는 단계에 도달했다.

문제는 이 능력이 양날의 검이라는 점이다.

방어자가 이 모델로 버그를 찾고 패치하면 보안이 강화된다. 공격자가 같은 모델로 취약점을 찾고 익스플로잇을 작성하면 공격이 강화된다. 능력 자체는 중립적이다. 사용자의 의도에 따라 결과가 달라진다.

OpenAI는 이 점을 명확히 인식하고 있다. 시스템 카드에서 이렇게 밝힌다.

"이 모델이 사이버 공격을 완전히 자동화할 수 있다는 확정적 증거는 없다. 하지만 자동화되거나 대규모로 배포되면 실질적인 피해를 야기할 수 있다고 믿는다."

'완전히 자동화'는 못하지만 '실질적 피해'는 가능하다. 미묘한 표현이다. 아직은 인간의 개입이 필요하지만, 그 개입의 양이 점점 줄어들고 있다는 뜻이기도 하다.

전례 없는 접근 제한

OpenAI가 GPT-5.3-Codex에 적용한 제한은 역대 가장 빡빡하다. 이전 모델들과 비교하면 차이가 뚜렷하다.

일반 ChatGPT 사용자 제한

일반 사용자는 기본적인 개발 작업에만 접근할 수 있다. 고급 보안 분석, 취약점 탐지, 익스플로잇 생성 같은 기능은 차단된다. 정확히 어디까지가 '기본'이고 어디부터가 '고급'인지는 OpenAI가 내부적으로 결정한다.

API 접근 지연

개발자들이 기다리던 완전한 API 접근은 보류 중이다. 이전 GPT 모델들은 발표 직후 API가 열렸지만, 5.3-Codex는 다르다. OpenAI는 "추가 평가가 필요하다"고만 밝혔다. 언제 열릴지 일정도 공개하지 않았다.

Trusted Access for Cyber 프로그램

가장 주목할 변화다. OpenAI가 새로 도입한 검증 기반 접근 체계다. 고급 보안 기능을 사용하려면 이 프로그램에 가입해야 한다. 가입 조건은 까다롭다.

신원 확인 필수
보안 연구 이력 검증
사용 목적 명시
지속적 모니터링 동의

OpenAI는 이 프로그램을 통해 "검증된 보안 전문가에게만 고급 기능을 제공하고, 악의적 사용자를 차단하겠다"고 밝혔다. 일종의 면허 제도다. 누구나 강력한 도구를 쓸 수 있는 게 아니라, 검증된 사람만 쓸 수 있게 한다.

1,000만 달러 방어 투자

제한만 있는 건 아니다. OpenAI는 사이버 방어 애플리케이션을 위한 API 크레딧 1,000만 달러를 지원한다고 발표했다. 방어 연구에 모델을 활용하는 팀에게 무료로 접근권을 주겠다는 것이다.

공격 능력을 제한하면서 방어 능력은 지원한다. 균형을 맞추려는 시도다.

Anthropic과의 차이

같은 시기에 Anthropic도 Claude Opus 4.6을 발표했다. 두 회사의 접근 방식이 대조적이다.

항목	OpenAI (GPT-5.3-Codex)	Anthropic (Claude Opus 4.6)
위험 공개 방식	시스템 카드에 '고위험' 명시	500+ 제로데이 발견 사실 공개
접근 정책	제한된 접근, 검증 필요	일반 API 제공
취약점 발견 공개	구체적 수치 미공개	500개 이상 상세 보고
보안 프로그램	Trusted Access for Cyber	레드팀 공개 보고서
투자 방향	1,000만 달러 방어 연구 지원	보안 레이어 기술 개발

Anthropic은 투명성을 택했다. "우리 AI가 오픈소스에서 500개 제로데이를 찾았다"고 공개적으로 발표했다. 구체적인 취약점, 발견 과정, 기술적 세부사항을 레드팀 보고서로 공개했다. 위험을 숨기지 않고 드러내는 방식이다.

OpenAI는 통제를 택했다. 위험을 인정하되, 접근을 제한한다. 구체적으로 어떤 공격이 가능한지, 어느 수준까지 자동화되는지는 공개하지 않는다. 대신 검증된 사용자만 고급 기능에 접근하게 한다.

어느 쪽이 옳은가? 정답은 없다. Anthropic의 방식은 커뮤니티가 위험을 인식하고 대비하게 한다. 하지만 공격자에게도 정보를 준다. OpenAI의 방식은 악용을 막지만, 방어자들도 모델의 실제 능력을 알기 어렵다.

두 회사 모두 같은 질문에 답하려 한다. "강력한 AI를 어떻게 책임감 있게 배포하는가?" 답이 다를 뿐이다.

왜 '지금' 고위험인가

GPT-5.3-Codex가 첫 '고위험' 판정을 받은 건 우연이 아니다. 여러 요인이 동시에 작용했다.

에이전트 능력의 도약

이전 모델들은 주로 '코드 생성'에 집중했다. 프롬프트를 주면 코드를 뱉는다. GPT-5.3-Codex는 다르다. 파일 시스템을 탐색하고, 터미널 명령을 실행하고, 오류를 분석하고, 스스로 수정한다. 자율적 에이전트에 가깝다.

사이버 공격 시나리오에서 이 차이는 크다. 기존에는 공격자가 AI에게 익스플로잇 코드를 요청하고, 직접 실행해야 했다. 이제는 AI가 스스로 탐색하고, 취약점을 찾고, 테스트하고, 작동하는 익스플로잇을 만들 수 있다. 인간의 개입이 줄어든다.

컨텍스트 윈도우 확장

GPT-5.3-Codex는 이전 버전보다 훨씬 긴 컨텍스트를 처리한다. 이게 왜 보안과 관련되는가? 대규모 코드베이스를 한 번에 분석할 수 있기 때문이다.

취약점을 찾으려면 코드 전체의 흐름을 이해해야 한다. 함수 A가 함수 B를 호출하고, B가 C를 호출하고, C에서 버퍼 오버플로우가 발생한다면, A부터 C까지의 맥락을 모두 파악해야 한다. 컨텍스트가 짧으면 이런 분석이 불가능하다. 컨텍스트가 길면 가능하다.

도구 사용 능력

GPT-5.3-Codex는 외부 도구를 능숙하게 사용한다. 디버거, 퍼저, 네트워크 스캐너 같은 보안 도구를 호출하고, 결과를 해석하고, 다음 단계를 결정한다. 도구 자체는 오래전부터 있었지만, 이를 자율적으로 조합해서 사용하는 AI는 새롭다.

코드 이해의 깊이

단순히 문법을 아는 게 아니다. 알고리즘의 의도를 파악하고, 설계상의 결함을 찾고, 논리적 오류를 짚어낸다. Anthropic의 Claude가 LZW 압축 알고리즘의 개념적 결함을 이해하고 버그를 찾은 것처럼, GPT-5.3-Codex도 비슷한 수준에 도달했다.

이 모든 요인이 합쳐지면서, AI가 사이버 공격에 실질적으로 유용한 수준에 도달했다. OpenAI의 '고위험' 판정은 이 현실을 인정한 것이다.

공격 시나리오

GPT-5.3-Codex가 악용되면 어떤 일이 벌어질 수 있는가? OpenAI는 구체적인 시나리오를 공개하지 않았지만, 보안 전문가들은 여러 가능성을 지적한다.

제로데이 발견 자동화

공격자가 모델에게 특정 소프트웨어의 소스코드를 주고 "취약점을 찾아라"고 하면, 모델이 후보 목록을 생성한다. 이전에는 전문 지식이 필요한 작업이었다. 어셈블리를 읽고, 메모리 구조를 이해하고, 퍼저를 돌려야 했다. 이제는 AI가 대신한다.

익스플로잇 코드 생성

취약점을 찾는 것과 익스플로잇을 만드는 건 다른 일이다. 취약점이 있어도 실제로 악용하려면 정밀한 코드가 필요하다. GPT-5.3-Codex는 이 코드를 생성할 수 있다. 개념 증명(PoC)부터 실제 공격 코드까지.

사회공학 자동화

피싱 이메일, 악성 웹사이트, 설득력 있는 가짜 메시지. 이런 콘텐츠 생성에 AI가 이미 쓰이고 있다. GPT-5.3-Codex는 여기에 기술적 정교함을 더한다. 타겟의 기술 환경을 분석하고, 맞춤형 공격 벡터를 설계한다.

스케일 공격

가장 큰 위협은 규모다. 인간 해커는 하루에 몇 개의 타겟을 분석할 수 있다. AI는 수천 개를 분석할 수 있다. 공격의 개별 정교함이 낮아도, 규모로 보상된다. 한 명을 완벽히 해킹하는 것보다, 만 명을 허술하게 해킹하는 게 더 이익일 수 있다.

OpenAI는 이런 시나리오를 막기 위해 제한을 걸었다. 하지만 모든 악용을 막을 수 있을까? 탈옥, 우회, 프록시 사용 등 다양한 회피 기법이 있다. 완벽한 차단은 불가능하다.

방어 시나리오

같은 능력이 방어에도 쓰인다. 사실 OpenAI가 1,000만 달러를 투자하는 이유다.

코드 감사 자동화

출시 전에 코드를 AI로 검사한다. 인간 리뷰어가 놓치는 패턴을 잡아낸다. 특히 대규모 코드베이스에서 효과적이다. 수백만 줄의 코드를 인간이 일일이 검토하기는 어렵지만, AI는 몇 시간이면 된다.

기존 정적 분석 도구들도 비슷한 일을 한다. Semgrep, SonarQube, CodeQL 같은 도구들이다. 하지만 이들은 미리 정의된 규칙에 의존한다. "이런 패턴이 나타나면 경고하라"는 규칙이다. 새로운 종류의 취약점, 규칙에 없는 버그는 잡지 못한다.

GPT-5.3-Codex는 다르다. 규칙이 아니라 이해에 기반한다. "이 코드가 무엇을 하려고 하는가? 의도대로 작동하는가? 예외 상황에서 어떻게 되는가?" 이런 질문에 답할 수 있다. 정의되지 않은 취약점도 찾아낸다.

레거시 코드 점검

오래된 코드는 보안 취약점의 보고다. 20년 전에 작성된 코드, 원작자가 퇴사한 코드, 문서화되지 않은 코드. 이런 코드를 AI가 분석하고, 잠재적 문제를 찾아낸다.

레거시 코드의 문제는 맥락 부재다. 왜 이렇게 작성됐는지 아는 사람이 없다. 주석도 없고, 문서도 없다. 수정하려면 코드를 처음부터 이해해야 한다. 시간이 오래 걸린다.

AI는 코드를 읽고 맥락을 추론한다. "이 함수는 아마 이런 목적이고, 이 변수는 이런 의미일 것이다." 틀릴 수도 있지만, 시작점을 제공한다. 인간 리뷰어의 부담을 덜어준다.

위협 인텔리전스

새로운 취약점이 공개되면, AI가 자사 코드에서 유사한 패턴을 검색한다. "이번 CVE와 비슷한 문제가 우리 코드에도 있는가?" 인간이 하면 며칠 걸리는 작업을 몇 분에 끝낸다.

Log4Shell 사태를 떠올려보라. Log4j의 JNDI 인젝션 취약점이 공개됐을 때, 전 세계 기업들이 자사 코드에서 Log4j 사용 여부를 파악하느라 분주했다. 직접 사용뿐 아니라 의존성의 의존성까지 확인해야 했다. 몇 주가 걸렸다.

AI는 이 과정을 단축한다. 취약점 패턴을 이해하고, 코드베이스 전체에서 유사 패턴을 검색한다. 직접 호출뿐 아니라 간접 호출, 변형된 패턴까지 찾아낸다.

침투 테스트 강화

공격자 관점에서 시스템을 테스트한다. AI가 다양한 공격 벡터를 시도하고, 성공한 경로를 보고한다. 인간 펜테스터와 함께 쓰면 효과가 배가된다.

침투 테스트는 비용이 많이 든다. 전문 인력이 필요하고, 시간이 오래 걸린다. 그래서 대부분 기업은 연 1~2회만 진행한다. 나머지 기간에는 새로운 취약점이 생겨도 모른다.

AI는 연속적인 침투 테스트를 가능하게 한다. 배포할 때마다, 코드가 바뀔 때마다 자동으로 테스트한다. 비용이 낮아지면 빈도가 올라간다. 보안 태세가 개선된다.

결국 같은 도구다. 누가 쓰느냐, 어떤 의도로 쓰느냐에 따라 방패가 되기도 하고 칼이 되기도 한다.

규제의 그림자

GPT-5.3-Codex의 '고위험' 판정은 규제 논의를 촉발할 가능성이 높다.

EU AI Act는 이미 고위험 AI 시스템에 대한 규제를 시행 중이다. 의료, 금융, 법 집행 등에 사용되는 AI는 엄격한 요건을 충족해야 한다. 사이버 공격 능력을 가진 AI는 어떻게 분류될까?

현재 AI Act는 사이버보안 분야를 명시적으로 고위험으로 분류하지 않는다. 하지만 GPT-5.3-Codex 같은 모델이 등장하면 상황이 달라질 수 있다. "이 AI는 사이버 공격에 악용될 수 있다"고 개발사 스스로 인정했으니까.

미국에서도 논의가 시작됐다. 바이든 행정부의 AI 행정명령은 이중 용도(dual-use) 기술에 대한 보고 의무를 부과한다. 사이버 공격 능력은 전형적인 이중 용도다. 방어에도, 공격에도 쓸 수 있으니까.

OpenAI의 선제적 대응은 규제를 피하기 위한 움직임일 수도 있다. "우리가 먼저 제한을 걸었으니 정부가 개입할 필요 없다"는 메시지다. 효과가 있을지는 두고 볼 일이다.

중국은 또 다른 변수다. 미국 기업들이 자체 제한을 거는 동안, 중국 AI 기업들은 같은 제한을 걸지 않을 수 있다. 기술 경쟁에서 뒤처지지 않으려면 제한을 풀어야 한다는 압박이 생긴다.

AI 안전과 AI 경쟁력 사이의 긴장. GPT-5.3-Codex의 '고위험' 판정은 이 긴장을 표면으로 끌어올렸다.

결론: 루비콘은 건넜다

GPT-5.3-Codex가 '고위험' 판정을 받은 건 기술적 성취가 아니다. 경계선을 넘었다는 선언이다.

AI가 사이버 공격에 실질적으로 유용한 수준에 도달했다. 이건 OpenAI의 자체 평가다. 제3자의 주장이 아니라 개발사의 인정이다. 더 이상 "AI가 해킹에 쓰일 수 있다"는 가정이 아니라, "쓰일 수 있으니 제한한다"는 현실이다.

이 현실과 어떻게 살아갈 것인가?

OpenAI는 통제된 접근을 택했다. 검증된 사용자만 고급 기능을 쓰게 하고, 방어 연구에 투자하고, 모니터링을 강화한다. 작동할 수도 있고, 실패할 수도 있다. 탈옥과 우회는 언제나 가능하니까.

Anthropic은 투명성을 택했다. 위험을 공개하고, 커뮤니티가 대비하게 한다. 이것도 작동할 수 있고, 역효과가 날 수도 있다. 공격자에게 로드맵을 주는 셈이니까.

어느 쪽이 옳은지는 시간이 말해줄 것이다. 확실한 건 둘 다 같은 문제에 직면해 있다는 점이다. 강력한 AI를 책임감 있게 배포하는 방법. 정답이 없는 문제다.

GPT-5.3-Codex의 '고위험' 판정은 경고다. AI 능력이 커질수록 위험도 커진다. 이 둘은 분리할 수 없다. 코딩을 잘하는 AI는 해킹도 잘할 수 있다. 버그를 찾는 AI는 버그를 악용할 수도 있다.

루비콘을 건넜다. 이제 강 건너편에서 어떻게 살아갈지 결정해야 한다.

출처: