OpenAI가 Nvidia를 버린 첫 번째 모델의 정체

초당 1,000토큰, 대신 정확도는 물어봤냐

2026년 2월 12일, OpenAI가 GPT-5.3-Codex-Spark를 공개했다. 이름만 보면 또 하나의 코딩 모델이다. 하지만 이 모델에는 OpenAI 역사상 처음으로 Nvidia GPU가 들어가지 않았다. 그 자리를 채운 건 Cerebras의 WSE-3, 저녁 접시만 한 단일 웨이퍼 칩이다.

초당 1,000토큰 이상을 생성한다. 기존 GPT-5.3-Codex의 65~70토큰/초와 비교하면 15배 빠르다. 코드 한 줄 요청하면 눈 깜짝할 새 답이 나온다. 체감 지연 시간은 사실상 0에 가깝다. OpenAI는 이 모델을 "실시간 코딩의 첫 번째 이정표"라고 불렀다.

하지만 속도만으로 모델을 판단하면 곤란하다. Terminal-Bench 2.0에서 이 모델의 점수는 58.4%다. 같은 시험에서 GPT-5.3-Codex가 77.3%를 받았다. 약 19%포인트 차이다. 빠르긴 한데, 맞추는 비율이 낮다. OpenAI가 첫 번째 비-Nvidia 모델에 무엇을 걸었고, 무엇을 포기했는지 들여다볼 필요가 있다.

Codex-Spark의 정체: 경량 코딩 모델

GPT-5.3-Codex-Spark는 GPT-5.3-Codex의 축소판이다. 핵심 아키텍처를 공유하되, 파라미터를 줄이고 추론 경로를 단순화했다. OpenAI 공식 표현으로는 "일상적 생산성 도구(daily productivity driver)"다. 무거운 리팩토링이나 복잡한 아키텍처 설계가 아니라, 빠른 프로토타이핑과 즉각적 코드 생성에 초점을 맞췄다.

사양을 정리하면 이렇다.

항목	GPT-5.3-Codex-Spark	GPT-5.3-Codex
토큰 생성 속도	1,000+ tok/s	65~70 tok/s
컨텍스트 윈도우	128K 토큰	128K 토큰
Terminal-Bench 2.0	58.4%	77.3%
SWE-Bench Pro 완료 시간	2~3분	15~17분
첫 토큰까지 시간(TTFT)	50% 단축	기준값
클라이언트-서버 지연	80% 감소	기준값
모달리티	텍스트 전용	텍스트 전용
인프라	Cerebras WSE-3	Nvidia GPU

속도와 정확도의 트레이드오프가 선명하다. SWE-Bench Pro에서 같은 작업을 15분에서 2~3분으로 줄였지만, Terminal-Bench 정확도는 19%포인트 떨어졌다. OpenAI는 이걸 "합리적 교환"이라고 본다. 실시간 코딩에서는 3초 후 완벽한 답보다 0.3초 후 80% 맞는 답이 낫다는 논리다.

ChatGPT Pro 구독자에게 리서치 프리뷰로 제공된다. Codex 앱, CLI, VS Code 익스텐션에서 사용 가능하다. 아직 일반 사용자에게는 열리지 않았다.

WSE-3: 접시 크기 칩의 기술적 실체

Cerebras의 Wafer Scale Engine 3(WSE-3)는 반도체 설계의 상식을 깨는 물건이다. 일반 GPU 칩은 수백mm² 크기다. Nvidia H100이 대략 814mm²다. WSE-3는 46,255mm²다. 57배 크다. TSMC 5nm 공정으로 제조되며, 하나의 웨이퍼 전체가 하나의 칩이다.

스펙을 나열하면 이렇다.

항목	Cerebras WSE-3	Nvidia H100
다이 면적	46,255mm²	814mm²
트랜지스터	4조 개	800억 개
AI 코어	90만 개	16,896 CUDA 코어
온칩 메모리	44GB SRAM	80GB HBM3e
피크 AI 성능	125 PFLOPS	3.96 PFLOPS
TDP	~23kW (CS-3 시스템)	700W

수치만 보면 WSE-3가 압도적으로 보인다. 하지만 단순 비교는 위험하다. H100은 범용 GPU고, WSE-3는 특정 추론 워크로드에 최적화된 전용 칩이다. 용도가 다르다.

핵심 차이는 메모리 구조에 있다. H100은 HBM3e라는 외부 메모리를 사용한다. 칩과 메모리 사이에 물리적 거리가 있고, 그 거리만큼 지연이 발생한다. WSE-3는 SRAM을 칩 전체에 분산 배치했다. 메모리가 연산 유닛 바로 옆에 있다. 데이터를 가져오는 시간이 극적으로 줄어든다.

SRAM은 HBM보다 약 1,000배 빠르다. 이 속도 차이가 추론에서 WSE-3의 압도적 토큰 생성 속도를 만든다. 대신 SRAM은 비싸고 용량이 작다. WSE-3의 44GB는 H100의 80GB보다 적다. Nvidia의 차세대 Rubin GPU는 288GB HBM4를 탑재할 예정이다. 메모리 용량에서는 WSE-3가 열세다.

그래서 Codex-Spark가 "경량 모델"인 이유가 여기에 있다. WSE-3의 제한된 메모리에 맞추려면 모델 크기를 줄여야 한다. 파라미터를 줄이면 정확도가 떨어진다. 초당 1,000토큰의 속도는 공짜가 아니다.

10억 달러짜리 파트너십의 속내

OpenAI와 Cerebras의 파트너십은 2026년 1월에 공식 발표됐다. 규모는 100억 달러. 3년간 750메가와트 규모의 컴퓨팅 파워를 Cerebras가 제공한다. Codex-Spark는 이 파트너십의 첫 번째 결과물이다.

100억 달러는 작은 돈이 아니다. 하지만 OpenAI의 전체 인프라 투자와 비교하면 일부다. 같은 시기 Nvidia와는 최대 1,000억 달러 규모의 투자 협의가 진행 중이다. AMD와는 6기가와트 규모의 Instinct AI GPU 배치 계약을 맺었다. Broadcom과는 커스텀 AI 가속기 공동 개발에 합의했다.

OpenAI 공식 입장은 명확하다. "GPU는 훈련과 추론 파이프라인 전반에 걸쳐 기초적이며, 광범위한 사용에서 가장 비용 효율적인 토큰을 제공한다. Cerebras는 극도로 낮은 지연 시간이 요구되는 워크플로우에서 이 기반을 보완한다."

번역하면, Nvidia를 버리는 게 아니라 특수 용도에 Cerebras를 추가한다는 뜻이다. 전체 추론의 약 10%를 Cerebras가, 나머지 90%는 여전히 Nvidia가 담당할 것으로 추정된다.

그렇다면 왜 100억 달러나 투자했을까. 답은 협상력에 있다. Nvidia가 사실상 독점하는 시장에서 대안이 생기면, Nvidia와의 가격 협상에서 유리해진다. "당신 칩 아니어도 우리는 돌아간다"고 보여줄 수 있다. 실제로 Codex-Spark가 그 증거다.

Nvidia는 흔들리지 않았다, 아직은

GPU 그래픽카드 — Nvidia는 여전히 AI 시장의 90%를 지배한다

Codex-Spark 발표 직후 Nvidia 주가는 약 3% 하락했다. 하지만 이 하락은 Cerebras 때문만은 아니었다. 같은 주에 OpenAI-Nvidia 투자 협상이 교착 상태라는 CNBC 보도가 나왔고, 기술주 전반이 조정을 받고 있었다. 며칠 후 주가는 회복됐다.

시장이 침착했던 이유는 숫자에 있다. Nvidia는 AI GPU 시장의 90% 이상을 장악하고 있다. 2026년 데이터센터 매출만 수백억 달러 규모다. Cerebras가 가져간 10%는 Nvidia 전체 파이에서 미미하다.

더 중요한 건 훈련 시장이다. AI 모델을 학습시키는 작업에서 Nvidia를 대체할 수 있는 회사는 현재 없다. CUDA 생태계, NVLink 인터커넥트, 수십 년간 축적된 소프트웨어 스택이 진입 장벽이다. OpenAI도 GPT-5.3 훈련에는 전적으로 Nvidia 하드웨어를 사용했다.

Cerebras의 강점은 추론에 국한된다. 추론은 훈련된 모델이 새 입력을 받아 출력을 생성하는 과정이다. 여기서 중요한 건 지연 시간이고, WSE-3가 이 영역에서 우위를 보인다. 하지만 추론 시장만으로는 Nvidia의 왕좌를 위협하기 어렵다.

다만 추론 시장의 비중은 계속 커지고 있다. Deloitte 예측에 따르면, 2026년 전체 AI 컴퓨팅에서 추론이 차지하는 비율은 2/3다. 2023년에는 1/3이었다. 사용자가 ChatGPT에 질문할 때마다 추론이 일어난다. 모델 훈련은 한 번이면 끝나지만, 추론은 사용자 수만큼 반복된다. 이 시장이 커질수록 Cerebras의 기회도 커진다.

Jensen Huang이 직접 배달했던 10년 전 약속

2016년, Jensen Huang이 OpenAI 본사에 DGX-1을 직접 들고 찾아갔다. 세계 최초의 AI 전용 슈퍼컴퓨터였다. 당시 OpenAI는 비영리 연구소에 불과했고, 자체 컴퓨팅 인프라가 거의 없었다. Huang은 Sam Altman에게 이 시스템을 선물하며 "AI의 미래를 함께 만들자"고 했다. 기증이었다.

그 이후 OpenAI의 모든 모델은 Nvidia 위에서 탄생했다. GPT-2, GPT-3, GPT-4, GPT-5. 예외 없이 전부 Nvidia CUDA 생태계 안에서 훈련되고 추론됐다. Nvidia는 OpenAI의 유일한 하드웨어 파트너였고, OpenAI는 Nvidia의 가장 중요한 고객 중 하나가 됐다. 상호 의존이었다.

하지만 2025년 하반기부터 균열의 조짐이 보이기 시작했다. TrendForce 보도에 따르면, OpenAI는 Nvidia GPU의 추론 성능에 불만을 표시했다. 특히 코딩 AI와 에이전트 AI처럼 실시간 응답이 중요한 분야에서 병목이 심했다. Nvidia GPU는 대규모 병렬 훈련에 최적화되어 있지, 단일 사용자의 질문에 즉각 응답하는 추론에는 비효율적이었다.

OpenAI는 대안을 찾기 시작했다. 2026년 1월, Cerebras와의 100억 달러 파트너십이 공식 발표됐다. 그리고 불과 한 달 뒤, Nvidia 없는 첫 번째 모델이 나왔다.

개발자가 체감할 변화

초당 1,000토큰이 개발자 워크플로우에 미치는 영향은 수치보다 크다. 기존에 AI 코딩 도구의 가장 큰 불만은 응답 대기였다. 코드를 요청하고 2~~3초를 기다리는 동안 사고의 흐름이 끊긴다. Codex-Spark는 이 대기 시간을 0.2~~0.3초로 줄인다.

실시간 코딩 세션에서 차이가 극명하다. 함수 하나를 작성하면서 AI에게 "이 로직 맞아?"라고 물을 때, 답이 0.3초 후에 오면 대화처럼 느껴진다. 3초 후에 오면 검색처럼 느껴진다. 이 체감 차이가 개발 흐름을 결정한다.

SWE-Bench Pro에서의 속도 개선도 주목할 만하다. 같은 코드 수정 작업을 15~~17분에서 2~~3분으로 줄였다. CI/CD 파이프라인에 AI를 통합한 팀이라면, 빌드-테스트-수정 사이클이 5배 이상 빨라진다. Spotify가 내부에서 운영하는 Honk 시스템 같은 워크플로우에서 이 속도 차이는 결정적이다. 개발자가 Slack으로 "이 버그 고쳐줘"라고 지시하면, AI가 수정하고 테스트하고 PR을 올리는 전체 과정이 분 단위로 끝난다.

하지만 정확도 하락을 무시할 수 없다. Terminal-Bench 58.4%는 "열 번 중 네 번은 틀린다"는 뜻이다. 실시간 프로토타이핑에서는 수용 가능하다. 빠르게 여러 번 시도하면 된다. 하지만 프로덕션 코드를 이 모델에 맡기는 건 위험하다. OpenAI도 이 모델을 "리서치 프리뷰"로 분류한 데에는 이유가 있다.

현재 AI 코딩 도구 시장에서 Codex-Spark의 위치는 독특하다. Claude Code(Anthropic)는 자율 에이전트와 긴 컨텍스트에 강점이 있고, GitHub Copilot은 IDE 통합과 기업 시장 점유율에서 앞선다. Codex-Spark는 이들과 정면 경쟁하기보다, 속도라는 새로운 축을 추가한 셈이다. 정확도가 필요하면 기존 도구를 쓰고, 속도가 필요하면 Spark를 쓰는 식이다.

칩 다변화 전쟁의 서막

OpenAI만 Nvidia 의존도를 낮추려는 게 아니다. AI 업계 전체에서 칩 다변화 움직임이 가속되고 있다.

기업	대안 칩/전략	상태
OpenAI	Cerebras WSE-3, AMD Instinct, Broadcom 커스텀	Cerebras 첫 배포 완료
Google	자체 TPU v5p, Trillium	자체 인프라 운영 중
Amazon	자체 Trainium, Inferentia	AWS 클라우드에 통합
Meta	자체 MTIA v2	내부 추론에 사용 중
Microsoft	AMD MI300X 도입	Azure에서 제공 중

TrendForce에 따르면, 2026년 커스텀 ASIC 출하량은 전년 대비 44.6% 증가할 전망이다. 같은 기간 GPU 출하량 증가율은 16.1%다. ASIC이 GPU보다 3배 빠르게 성장하고 있다.

이 흐름의 배경에는 경제 논리가 있다. Nvidia GPU는 범용성이 높지만, 특정 워크로드에서는 비효율적이다. 추론처럼 반복적이고 예측 가능한 작업에는 전용 칩이 낫다. 전용 칩은 불필요한 회로를 제거하고 필요한 기능만 남기기 때문에, 같은 전력으로 더 많은 연산을 처리한다.

Cerebras의 IPO도 이 맥락에서 읽어야 한다. 2026년 2분기 상장 예정이며, 목표 기업가치는 220억 달러다. Nvidia 시가총액 4조 달러에 비하면 미미하지만, "Nvidia 없이도 AI가 돌아간다"는 것을 증명한 회사가 공개 시장에 나온다는 상징성이 크다.

Nvidia도 대응하고 있다. 2026년 하반기 출시 예정인 Rubin GPU는 온칩 메모리를 대폭 강화했다. 각 GPU가 3.6TB/s 대역폭을 제공하며, Vera Rubin NVL72 랙 하나가 260TB/s를 달성한다. Nvidia는 이를 "전체 인터넷보다 큰 대역폭"이라고 주장한다. Cerebras가 보여준 방향, 즉 메모리와 연산의 물리적 거리를 줄이는 전략을 Nvidia도 따라가기 시작한 것이다. 경쟁이 혁신을 낳는 전형적 패턴이다.

에너지 효율 문제도 무시할 수 없다. Nvidia H100 한 대가 700W를 소비한다. 수천 대를 돌리면 메가와트급 전력이 필요하다. Cerebras는 같은 추론 성능을 더 적은 전력으로 달성한다고 주장한다. 구체적 수치는 워크로드에 따라 다르지만, 전력당 성능에서 우위가 있다는 건 여러 벤치마크가 뒷받침한다. AI 회사들이 ESG 압박과 운영비 절감을 동시에 고민하는 상황에서, 에너지 효율은 칩 선택의 핵심 기준이 되고 있다.

첫 번째 균열이 보여주는 것

OpenAI가 Nvidia를 "버렸다"는 표현은 정확하지 않다. 인프라의 90%는 여전히 Nvidia다. 1,000억 달러 규모의 투자 협의도 진행 중이다. GPT-5.3 훈련은 전적으로 Nvidia에 의존한다.

하지만 GPT-5.3-Codex-Spark는 중요한 것을 증명했다. Nvidia 없이도 프로덕션 수준의 AI 모델을 배포할 수 있다는 사실이다. 초당 1,000토큰이라는 속도로, 실제 사용자에게, 실제 제품으로. 이건 벤치마크 데모가 아니다. ChatGPT Pro에 들어가는 실서비스다.

10년간 AI 칩 시장에서 선택지란 없었다. Nvidia 아니면 Nvidia였다. 이제 Cerebras라는 대안이 실제로 작동한다는 게 증명됐다. 이 증명이 AMD에게, Groq에게, Google TPU에게, 그리고 아직 등장하지 않은 누군가에게 문을 연다.

Codex-Spark의 정확도 58.4%는 낮다. 범용성도 떨어진다. 텍스트 전용이라 멀티모달은 지원하지 않는다. 메모리 제약 때문에 대형 모델을 올리기 어렵다. 한계가 분명한 모델이다.

그런데도 이 모델이 의미 있는 건, 완벽해서가 아니라 가능성을 열었기 때문이다. 첫 번째 균열은 항상 작다. IBM-Microsoft, Microsoft-Intel, Apple-Intel. 기술 산업의 대전환은 언제나 작은 균열에서 시작됐다.

Apple이 Intel을 버리고 자체 M1 칩으로 전환할 때도 처음에는 "저전력 노트북에서나 쓸 수 있는 실험"이라는 평가가 지배적이었다. 하지만 M1이 가능성을 증명하자, M2, M3, M4로 이어지며 Mac 전 라인업에서 Intel이 사라졌다. 전환은 점진적이었지만, 방향은 돌이킬 수 없었다.

OpenAI-Nvidia 관계가 같은 경로를 밟을지는 아무도 모른다. Cerebras가 10%에서 멈출 수도 있고, 20%, 30%로 확대될 수도 있다. 확실한 건 하나다. 2026년 2월 12일, Nvidia 없이도 프로덕션 AI 모델이 돌아간다는 사실이 증명됐다. 그 사실 자체가 돌이킬 수 없다.

출처: