GPT-5.4가 인간을 넘은 75%, 그래서 뭐가 달라지나

인간 72.4%, GPT-5.4 75.0%

AI와 인간의 경계를 상징하는 디지털 얼굴 이미지

2026년 3월 5일, OpenAI가 GPT-5.4를 출시했다. 숫자 하나가 눈에 걸린다. OSWorld-Verified 벤치마크에서 75.0%. 이 벤치마크는 AI가 스크린샷을 보고 키보드와 마우스를 직접 조작해 데스크톱 환경에서 작업을 수행하는 능력을 측정한다. 인간 전문가의 기준선은 72.4%다. GPT-5.2는 47.3%에 머물렀다.

27.7%포인트의 도약이다. 한 세대 만에 인간 전문가를 넘어섰다. 컴퓨터 화면을 보고 마우스를 클릭하고 키보드를 두드리는 작업에서 AI가 사람보다 낫다는 뜻이다. 물론 벤치마크는 벤치마크일 뿐이다. 하지만 GPT-5.2에서 GPT-5.4까지, 불과 수개월 만에 이 수치가 거의 두 배로 뛴 것은 단순한 점진적 개선이 아니다.

GPT-5.4는 OpenAI의 첫 번째 범용 모델 중 네이티브 컴퓨터 사용 기능을 탑재한 모델이다. Codex와 API에서 에이전트가 컴퓨터를 직접 조작하고 여러 애플리케이션에 걸쳐 다단계 워크플로를 실행할 수 있다. 이전까지 컴퓨터 사용은 별도 도구나 래퍼를 필요로 했다. 이제 모델 자체에 내장됐다.

벤치마크 75%의 실체

"인간을 넘었다"는 문장은 늘 조심해야 한다. OSWorld-Verified는 자율 데스크톱 탐색 능력을 측정하는 벤치마크다. 스크린샷을 기반으로 키보드와 마우스 명령을 내려 특정 작업을 완료하는 시험이다. 웹 브라우저에서 정보를 찾거나, 파일 관리자에서 폴더를 정리하거나, 설정 메뉴를 탐색하는 유형의 과제들이 포함된다.

GPT-5.4는 두 가지 상호작용 모드를 지원한다. 코드 모드는 Python과 Playwright를 사용해 웹 탐색을 수행한다. 스크린샷 모드는 화면을 직접 보고 마우스와 키보드 명령을 내린다. 긴 에이전트 궤적을 요약하는 압축(compaction) 메커니즘도 포함돼 있어, 작업이 길어져도 맥락을 잃지 않는다.

다른 벤치마크 수치도 같이 봐야 전체 그림이 보인다.

벤치마크	GPT-5.4	GPT-5.2	인간 기준선
OSWorld-Verified	75.0%	47.3%	72.4%
GDPval (지식 노동)	83.0%	70.9%	-
스프레드시트 모델링	87.3%	68.4%	-
WebArena-Verified	67.3%	65.4%	-
SWE-Bench Verified	~80%	-	-
SWE-Bench Pro	57.7%	-	-

OSWorld와 GDPval에서의 도약은 인상적이다. 하지만 WebArena-Verified에서는 65.4%에서 67.3%로, 고작 1.9%포인트 올랐다. SWE-Bench Pro에서 57.7%라는 수치는 **GPT-5.3-Codex의 56.8%**에서 0.9%포인트밖에 오르지 않았다. 코딩 능력의 개선은 미미하다. 일상적인 개발 업무에서 체감하기 어려운 수준이다.

벤치마크는 선택적으로 읽힌다. OpenAI가 강조하는 75%와 87.3%는 실제로 대단한 수치다. 하지만 모든 영역에서 동일한 도약이 일어난 것은 아니다.

100만 토큰, 그리고 272K의 함정

데이터 분석 대시보드 화면

GPT-5.4는 API와 Codex에서 최대 100만 토큰의 컨텍스트 윈도우를 지원한다. GPT-5와 GPT-5.3-Codex의 40만 토큰에서 2.5배로 늘어났다. 에이전트가 긴 호라이즌에 걸쳐 작업을 계획하고, 실행하고, 검증할 수 있게 됐다.

하지만 가격 구조에 함정이 있다. 표준 입력 가격은 100만 토큰당 2.50달러다. 그런데 프롬프트가 272,000 입력 토큰을 초과하면 입력 토큰 요금이 2배(5.00달러), 출력 토큰 요금이 1.5배로 뛴다. 100만 토큰을 쓸 수 있다고 해서 100만 토큰을 쓰면 비용이 급증하는 구조다.

GPT-5.4 Pro 버전은 더 비싸다. 입력 100만 토큰당 30달러, 출력 100만 토큰당 180달러다. 엔터프라이즈급 정확도와 추론 능력이 필요한 작업을 위한 가격이지만, 일반 개발자가 쉽게 접근하기 어려운 수준이다.

반면 OpenAI는 도구 검색(tool search) 기능으로 효율을 높였다. 사용 가능한 도구의 경량 목록을 받고, 실제로 필요할 때만 해당 도구의 정의를 불러오는 방식이다. 250개 MCP Atlas 작업과 36개 MCP 서버를 대상으로 한 테스트에서 동일한 정확도를 유지하면서 총 토큰 사용량을 47% 줄였다. 100만 토큰 컨텍스트의 비용 문제를 기술적으로 완화하려는 시도다.

항목	GPT-5.4	GPT-5.4 Pro
입력 (≤272K)	$2.50/1M 토큰	$30.00/1M 토큰
입력 (>272K)	$5.00/1M 토큰	-
출력 (≤272K)	$15.00/1M 토큰	$180.00/1M 토큰
출력 (>272K)	$22.50/1M 토큰	-
컨텍스트 윈도우	105만 토큰	105만 토큰
최대 출력	128K 토큰	128K 토큰

엑셀을 여는 AI, 금융 플러그인의 등장

GPT-5.4의 또 다른 주목할 점은 금융 서비스에 대한 집중이다. OpenAI는 ChatGPT용 Microsoft Excel 플러그인을 베타로 출시했다. Google Sheets 통합도 곧 따를 예정이다. 단순히 "엑셀에서 도움을 줄게"가 아니다. 워크북 안에서 직접 스프레드시트 모델을 구축하고, 업데이트하고, 분석한다.

주니어 투자은행 애널리스트가 수행하는 스프레드시트 모델링 작업을 기준으로 한 내부 벤치마크에서, GPT-5.4는 **87.3%**를 달성했다. GPT-5.2는 68.4%였다. 금융 모델링, 시나리오 분석, 데이터 추출, 장문 리서치 영역에서 개선이 이루어졌다.

금융 데이터 통합도 주목할 만하다. Moody's, Dow Jones Factiva, MSCI, Third Bridge, MT Newswire와의 통합이 엔터프라이즈 플랜에 포함됐다. FactSet도 곧 추가된다. 이는 ChatGPT를 단순한 대화 도구가 아니라 금융 전문가의 업무 도구로 자리매김시키려는 전략이다.

롤아웃 범위는 미국, 캐나다, 호주의 ChatGPT Business, Enterprise, Edu, Teachers, Pro, Plus 사용자다. 엔터프라이즈와 교육 워크스페이스에서는 기본적으로 비활성화돼 있어, 관리자가 RBAC(역할 기반 접근 제어)과 커스텀 역할 설정을 통해 활성화해야 한다.

보안 측면에서는 SAML SSO, SCIM, 감사 로그, TLS 1.2+ 전송 중 암호화, AES-256 저장 암호화, 데이터 거주지 제어를 제공한다. 엔터프라이즈 데이터는 기본 정책상 모델 훈련에 사용되지 않는다. 금융업계가 AI를 도입하기 위해 요구하는 체크리스트를 상당 부분 충족시켰다.

Opus 4.6과의 대결, 누가 이기고 있나

코드가 흐르는 디지털 화면

GPT-5.4는 Anthropic의 Claude Opus 4.6과 정면으로 경쟁한다. 두 모델의 벤치마크 비교는 흥미롭다.

벤치마크	GPT-5.4	Opus 4.6
OSWorld-Verified	75.0%	72.7%
SWE-Bench Verified	~80%	80.8%
SWE-Bench Pro	57.7%	~45%
Terminal-Bench 2.0	75.1%	65.4%
MMMU Pro (시각)	-	85.1%
API 입력 가격	$2.50/1M	$15.00/1M
API 출력 가격	$15.00/1M	$75.00/1M

GPT-5.4는 OSWorld에서 75.0%로 Opus 4.6의 72.7%를 앞선다. SWE-Bench Pro에서는 57.7% 대 약 45%로 12.7%포인트 차이가 난다. Terminal-Bench 2.0에서도 75.1% 대 65.4%로 우위다. 가격은 입력 기준 6배, 출력 기준 5배 저렴하다.

반면 Opus 4.6은 SWE-Bench Verified에서 80.8%로 GPT-5.4의 약 80%를 근소하게 앞선다. 개발자들은 대규모 리팩토링, 여러 파일에 걸친 타입 시스템 변경, 아키텍처 수정 작업에서 Opus가 더 적은 오류를 낸다고 보고한다. 컨텍스트 윈도우는 GPT-5.4가 105만 토큰으로 Opus 4.6의 20만 토큰(베타 100만)보다 넓다.

결론은 단순하지 않다. GPT-5.4는 범용 성능과 가격에서 우위다. Opus 4.6은 코드 중심의 에이전틱 엔지니어링에서 강점을 유지한다. "어디에서 쓰느냐"가 "무엇이 더 좋으냐"보다 중요한 질문이 됐다.

250만 명이 떠난 자리에 출시된 모델

GPT-5.4가 출시된 시점은 OpenAI 역사상 최악의 타이밍이었다. 출시 일주일 전인 2월 28일, OpenAI는 미국 국방부(DoD)와 계약을 체결했다. 같은 주에 Anthropic은 동일한 계약을 공개적으로 거부했다. Anthropic이 요구한 조건은 명확했다. 자율 무기 배치와 미국 시민에 대한 대규모 감시를 명시적으로 금지하는 문구를 포함할 것. 펜타곤은 이를 거부했고, Anthropic은 계약에서 빠졌다.

이 결정은 #QuitGPT 운동으로 이어졌다. 약 250만 명의 사용자가 행동에 나섰다. 구독 해지, 소셜 미디어에서의 보이콧 선언, quitgpt.org를 통한 참여 등의 형태였다. 한 달간 실제로 약 150만 명이 ChatGPT를 떠난 것으로 집계됐다.

GPT-5.4는 기술적으로 OpenAI의 가장 인상적인 모델이다. 하지만 역대 최대 규모의 사용자 이탈 한복판에서 출시됐다. Sam Altman은 OpenAI가 표방해온 안전 "레드 라인"과 실제 계약 내용 사이의 괴리에 대한 질문에 답해야 했다. Anthropic이 "트럼프 대통령의 공개적 비난"을 감수하면서까지 계약을 거부한 것과 대조적이다.

기술의 우수함만으로는 신뢰를 살 수 없다는 것을 GPT-5.4 출시가 증명하고 있다.

세 가지 버전, 누구를 위한 모델인가

금융 데이터 분석 화면

GPT-5.4는 세 가지 버전으로 제공된다. GPT-5.4 Thinking은 ChatGPT Plus, Team, Pro 사용자에게 제공되며, GPT-5.2 Thinking을 대체한다. GPT-5.4 Pro는 ChatGPT Pro(월 200달러)와 Enterprise 플랜 사용자 전용이다. 표준 GPT-5.4는 API와 Codex에서 사용할 수 있다.

GPT-5.2 Thinking은 레거시 피커에서 2026년 6월 5일까지 사용 가능하다. 90일의 마이그레이션 기간이 주어진 셈이다. OpenAI 모델의 수명 주기는 점점 짧아지고 있다. GPT-5.3-Codex가 출시된 지 불과 이틀 만에 GPT-5.4가 나왔다. 빠른 교체 주기는 기술 발전의 증거이기도 하지만, 기업 고객에게는 불안 요소이기도 하다.

정확도 면에서 GPT-5.4는 GPT-5.2 대비 개별 주장이 거짓일 확률이 33% 감소했고, 전체 응답에 오류가 포함될 확률이 18% 감소했다. "사이버보안 분야의 고도화된 능력"에 대한 완화 조치를 포함한 첫 번째 범용 모델이기도 하다. AI가 사이버 공격에 악용될 가능성을 인지하고 이에 대한 안전장치를 내장했다는 의미다.

GPT-5.4의 또 다른 흥미로운 기능은 **중간 응답 조향(mid-response steering)**이다. 모델이 추론하는 도중에 사용자가 방향을 전환할 수 있다. 기존에는 모델의 응답이 끝날 때까지 기다려야 했다. 이제 "그 방향이 아니라 이쪽으로"라고 중간에 말할 수 있다. 긴 추론 작업에서 시간과 토큰을 절약하는 실용적 기능이다.

75%가 바꾸는 것과 바꾸지 못하는 것

OSWorld 75%라는 수치는 상징적이다. AI가 컴퓨터 화면을 보고 사람처럼 조작하는 능력에서 인간을 넘어섰다. 이것이 바꾸는 것은 명확하다. 반복적인 데스크톱 작업의 자동화다. 엑셀에서 데이터를 정리하고, 웹에서 정보를 수집하고, 시스템 설정을 변경하는 작업을 AI 에이전트에게 맡길 수 있게 됐다. 금융 플러그인과 결합하면 주니어 애널리스트의 업무 상당 부분을 대체할 수 있다는 87.3%라는 수치가 이를 뒷받침한다.

하지만 바꾸지 못하는 것도 있다. 코딩 벤치마크에서의 미미한 개선(SWE-Bench Pro 56.8%→57.7%)은 AI 코딩의 한계가 여전함을 보여준다. 구조화된 벤치마크 과제를 푸는 것과 실제 복잡한 코드베이스에서 다중 파일 리팩토링을 수행하는 것은 다른 문제다.

그리고 가장 큰 변수는 기술 바깥에 있다. 250만 명의 보이콧, 펜타곤 계약 논란, Anthropic과의 윤리적 대비. OpenAI가 만든 것은 역대 가장 강력한 범용 AI 모델이다. 하지만 "가장 강력한 모델"이 "가장 선택받는 모델"이 되리라는 보장은 어디에도 없다. 기술의 숫자가 높아질수록, 그 숫자 바깥의 것들이 더 중요해지는 역설이 시작됐다.

출처