SWE-Bench 0.8% 차이가 숨기는 불편한 진실

80.8% 대 80%, 이 숫자만 보면 안 되는 이유

AI 코딩 벤치마크 비교를 보여주는 데이터 분석 화면

2026년 3월 5일, OpenAI가 GPT-5.4를 출시했다. AI 코딩 업계가 가장 먼저 확인한 건 SWE-Bench Verified 점수였다. 결과는 80%. Claude Opus 4.6의 **80.8%**와 불과 0.8%포인트 차이다. 트위터에서는 "Opus가 아직 1등", "GPT가 거의 따라잡았다"는 반응이 교차했다. 마치 올림픽 100미터 결승처럼, 0.01초 차이로 금메달과 은메달이 갈리는 구도였다.

하지만 이 숫자 하나에 매몰되면 전체 그림을 놓친다. SWE-Bench Verified는 AI 코딩 능력을 측정하는 여러 벤치마크 중 하나일 뿐이다. 더 어려운 문제를 다루는 SWE-Bench Pro에서는 GPT-5.4가 **57.7%**로 Opus 4.6의 약 **45~46%**를 28% 이상 앞선다. Terminal-Bench 2.0에서도 GPT-5.4가 **75.1%**로 Opus의 **65.4%**를 크게 넘는다. 같은 두 모델인데, 어떤 시험지를 들이미느냐에 따라 1등이 바뀐다. 0.8% 차이가 숨기는 불편한 진실은, 벤치마크 하나로는 코딩 AI의 실력을 판단할 수 없다는 것이다.

SWE-Bench Verified vs SWE-Bench Pro, 같은 이름 다른 시험

SWE-Bench Verified와 SWE-Bench Pro는 이름은 비슷하지만 난이도가 다르다. SWE-Bench Verified는 실제 오픈소스 프로젝트의 이슈와 PR을 기반으로 만든 벤치마크다. AI가 이슈를 읽고, 코드를 수정하고, 테스트를 통과시키는 능력을 측정한다. 2024년부터 AI 코딩 모델의 대표 지표로 자리 잡았다.

SWE-Bench Pro는 한 단계 더 어려운 문제를 다룬다. 더 복잡한 코드베이스, 더 많은 파일을 건드려야 하는 변경, 더 까다로운 엣지 케이스가 포함된다. Verified가 "중급 개발자 수준의 버그 수정"이라면, Pro는 "시니어 개발자가 며칠 고민할 수준의 리팩토링"에 가깝다.

결과를 나란히 놓으면 풍경이 달라진다.

벤치마크	GPT-5.4	Claude Opus 4.6	차이
SWE-Bench Verified	80%	80.8%	Opus +0.8%p
SWE-Bench Pro	57.7%	~45-46%	GPT +28%
Terminal-Bench 2.0	75.1%	65.4%	GPT +9.7%p

SWE-Bench Verified에서는 Opus가 근소하게 앞선다. 하지만 더 어려운 문제가 나오면 GPT-5.4가 확연히 앞선다. Verified 점수만 보고 "Opus가 최고의 코딩 모델"이라고 결론내리는 건, 기말고사 한 과목 점수만 보고 전교 1등을 판단하는 것과 같다.

토큰당 비용에서 벌어지는 격차

벤치마크 데이터 차트를 보여주는 화면

벤치마크 점수 외에 실제 개발 현장에서 무시할 수 없는 변수가 있다. 바로 비용이다. NxCode의 비교 분석에 따르면, GPT-5.4와 Opus 4.6의 API 가격 차이는 상당하다.

항목	GPT-5.4	Claude Opus 4.6	배율
입력 토큰 (100만개당)	$2.50	$15	6배
출력 토큰 (100만개당)	$15	$75	5배
최대 출력 토큰	128K	128K	동일

입력 기준 6배, 출력 기준 5배. GPT-5.4가 압도적으로 저렴하다. GPT-5.4의 Pro 티어( $30 입력 /$ 180 출력)조차 Opus 4.6의 기본 가격보다 낮다. 여기에 GPT-5.4가 복잡한 작업에서 이전 모델 대비 토큰을 47% 덜 사용한다는 점까지 더하면, 실질 비용 차이는 더 벌어진다.

NxCode의 분석은 구체적인 예시를 든다. Opus 4.6으로 1달러가 드는 작업을 GPT-5.4로 하면 0.10~0.15달러에 가능하다. 7배에서 10배 저렴하다. SWE-Bench Verified에서 0.8%포인트 앞서는 대가로 비용이 5~10배 비싸다면, 이 트레이드오프를 감수할 팀이 얼마나 될까.

물론 가격이 전부는 아니다. 코드 품질, 안정성, 복잡한 리팩토링 능력까지 고려해야 한다. 하지만 API 호출 수천 건을 돌리는 자동화 파이프라인에서 비용 차이는 무시할 수 없는 변수다. 벤치마크 1등이라는 타이틀이 실제 지갑에서는 다른 의미를 가질 수 있다.

컨텍스트 윈도우, 숫자가 말하지 않는 것

벤치마크 점수와 가격 외에 실전에서 중요한 또 다른 차원이 있다. 컨텍스트 윈도우다. 모델이 한 번에 읽고 처리할 수 있는 코드의 양이다.

GPT-5.4는 기본 105만 토큰의 컨텍스트 윈도우를 제공한다. Opus 4.6은 기본 20만 토큰이고, 100만 토큰은 아직 베타 상태다. 5배 차이다. 대규모 코드베이스를 한 번에 분석하거나, 수십 개 파일을 동시에 참조해야 하는 작업에서 이 차이는 크다.

다만 Opus 4.6은 다른 방식으로 이 약점을 보완한다. Agent Teams라는 병렬 멀티 에이전트 오케스트레이션 기능이다. 하나의 에이전트가 모든 코드를 한 번에 읽는 대신, 여러 에이전트가 코드를 나눠서 분석하고 결과를 합치는 구조다. 컨텍스트 윈도우의 물리적 한계를 아키텍처로 우회하는 접근이다.

GPT-5.4는 단일 모델이 큰 컨텍스트를 처리하는 방식이고, Opus 4.6은 여러 모델이 협업하는 방식이다. 어떤 접근이 더 낫냐는 작업 유형에 따라 다르다. 단일 파일이나 연관된 소수 파일의 깊은 분석에는 큰 컨텍스트 윈도우가 유리하다. 수십 개 파일에 걸친 대규모 리팩토링에는 멀티 에이전트가 유리할 수 있다. SWE-Bench 점수에는 이런 차이가 반영되지 않는다.

컴퓨터 사용, 벤치마크가 놓친 전장

경쟁과 전략을 상징하는 이미지

SWE-Bench가 측정하지 않는 영역이 하나 더 있다. 컴퓨터 사용(Computer Use) 능력이다. 브라우저를 열고, 터미널 명령어를 실행하고, GUI를 조작하는 능력. 이 분야에서 GPT-5.4는 주목할 만한 결과를 냈다.

OSWorld 벤치마크에서 GPT-5.4는 **75%**를 기록했다. 인간 기준선이 **72.4%**다. AI가 처음으로 컴퓨터 사용 벤치마크에서 인간 기준을 넘어선 것이다. Opus 4.6은 같은 벤치마크에서 **72.7%**로 인간 기준선과 비슷한 수준이다.

이 결과가 중요한 이유는, AI 코딩의 범위가 "코드 작성"에서 "컴퓨터 조작"으로 확장되고 있기 때문이다. 코드를 쓰는 것만이 아니라, 개발 환경을 세팅하고, 테스트를 실행하고, 배포 파이프라인을 관리하는 작업까지 AI가 대행하는 시대가 오고 있다. 이 영역에서 GPT-5.4가 앞서고 있다는 건, 코딩 AI의 미래 경쟁력을 SWE-Bench만으로는 판단할 수 없다는 뜻이다.

GDPval 벤치마크에서도 GPT-5.4는 **83%**를 기록하며 44개 직종에 걸친 전문 지식 작업에서 높은 성과를 보였다. 이 벤치마크에 대한 Opus 4.6의 공식 수치는 공개되지 않았다. 코딩만이 아니라 "일을 하는 AI"로서의 범용 능력에서도 GPT-5.4가 공격적으로 영역을 넓히고 있다.

반면 Opus 4.6이 확실히 앞서는 영역도 있다. MMMU Pro 시각 추론 벤치마크에서 85.1%, MRCR v2 100만 토큰 컨텍스트 검색에서 **76%**를 기록했다. 시각적 추론과 긴 문맥 처리에서는 Opus가 강세다. 각 모델이 잘하는 시험이 다르다.

"둘 다 쓰라"는 결론의 의미

NxCode의 분석은 흥미로운 결론을 내린다. GPT-5.4와 Opus 4.6 중 하나를 고르는 게 아니라, 둘 다 쓰라는 것이다. 프로토타이핑, 자동화, 빠른 작업에는 GPT-5.4를. 깊은 리팩토링, 코드베이스 분석, 에이전트 워크플로에는 Opus 4.6을. Cursor, Continue.dev, NxCode 같은 도구들이 이미 양쪽 모델을 모두 지원한다.

이 결론이 의미하는 바는 분명하다. 단일 벤치마크로 "최고의 코딩 AI"를 선언하는 시대는 끝났다. SWE-Bench Verified에서 0.8% 앞선다고 모든 코딩 작업에서 우위라는 건 과거의 사고방식이다. 현실의 개발 작업은 다양하고, 각 작업마다 최적의 도구가 다르다.

이건 AI 코딩 도구의 선택 기준이 바뀌고 있다는 신호이기도 하다. 예전에는 "어떤 모델이 벤치마크 1등이냐"가 핵심 질문이었다. 이제는 "이 작업에 어떤 모델이 최적이냐"로 바뀌고 있다. 벤치마크 표 한 장이 아니라, 작업 유형별 비용 대비 성능 매트릭스가 필요한 시대다.

구독 시장에서의 묘한 균형

균형과 선택을 상징하는 이미지

API 가격에서는 GPT-5.4가 압도적으로 저렴하지만, 구독 시장에서는 묘한 균형이 존재한다. ChatGPT Plus와 Claude Pro 모두 월 20달러다. 프리미엄 티어인 ChatGPT Pro와 Claude Max도 모두 월 200달러다. 소비자 가격에서는 두 회사가 완벽하게 같은 가격을 유지하고 있다.

차이는 구독에 포함된 내용에 있다. ChatGPT Pro는 GPT-5.4 Pro(더 높은 토큰 품질)와 높은 사용량 한도를 제공한다. Claude Max는 Opus 4.6 무제한 사용과 Agent Teams 접근을 제공한다. 같은 200달러를 내도 받는 것이 다르다.

개인 개발자 입장에서 월 20달러 구독은 어떤 모델을 선택하든 크게 부담되지 않는다. 하지만 팀 단위로 API를 호출하는 기업 환경에서는 토큰 가격 차이가 월 수만 달러 차이로 벌어진다. SWE-Bench 0.8% 차이는 기업 의사결정자에게 5~10배 비용 차이 앞에서 무력해진다.

결국 벤치마크 경쟁의 승자를 가리는 건 점수가 아니라 시장이다. 0.8%포인트의 벤치마크 우위가 5배의 가격 프리미엄을 정당화할 수 있느냐는 질문. 그 답은 코드를 쓰는 현장에서 나온다.

벤치마크 너머의 질문

SWE-Bench 0.8% 차이를 둘러싼 논쟁은, 사실 더 큰 질문을 가리고 있다. AI 코딩 모델의 실력을 측정하는 올바른 방법이 무엇이냐는 질문이다.

SWE-Bench는 잘 정의된 버그를 고치는 능력을 측정한다. 이슈가 있고, 해결 코드가 있고, 테스트가 있다. 정답이 명확한 시험이다. 하지만 현실의 개발은 다르다. 요구사항이 모호하고, 정답이 여러 개이며, "동작하는 코드"와 "좋은 코드"의 차이가 중요하다. 설계 결정, 기술 부채 관리, 팀 컨벤션 준수 같은 요소는 벤치마크로 측정할 수 없다.

GPT-5.4가 SWE-Bench Pro에서 28% 앞서는 것은 인상적이다. 하지만 SWE-Bench Pro도 결국 "정해진 문제를 정해진 방식으로 푸는" 시험이다. 현실에서 코딩 AI를 쓰는 개발자가 느끼는 차이는 벤치마크에 담기지 않는 경우가 많다. 모델이 의도를 얼마나 잘 파악하는지, 코드 스타일이 일관적인지, 불필요한 변경을 하지 않는지 같은 것들이다.

0.8% 차이에 환호하거나 실망하기 전에 물어야 할 질문이 있다. 그 벤치마크가 내 작업을 대표하는가. SWE-Bench Verified 80%짜리 모델과 80.8%짜리 모델의 차이를 실제 프로젝트에서 체감할 수 있는 사람이 과연 몇이나 될까. 벤치마크는 지도다. 지도가 지형 그 자체는 아니다. 0.8%라는 숫자가 숨기는 불편한 진실은, 우리가 아직 AI 코딩 능력을 제대로 측정하는 방법을 찾지 못했다는 것이다.

출처

GPT-5.4 vs Claude Opus 4.6: Complete Coding Comparison 2026 -- NxCode