Sonnet 4.6이 Opus급인데 가격은 1/5라고?

SWE-bench 79.6%, 그런데 가격표가 이상하다

Anthropic Claude Sonnet 4.6 — 플래그십 성능을 중간 가격에 제공하는 AI 모델

2026년 2월 17일, Anthropic이 Claude Sonnet 4.6을 공개했다. SWE-bench Verified에서 **79.6%**를 기록했다. 같은 날 발표된 플래그십 모델 Opus 4.6은 80.8%다. 차이는 1.2%포인트.

그런데 가격표를 보면 이야기가 달라진다. Sonnet 4.6은 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러다. Opus 4.6은 입력 15달러, 출력 75달러다. 정확히 5배 차이다. 성능은 거의 같은데 가격은 5분의 1. 이건 단순한 신모델 출시가 아니다. AI 모델의 가격 질서 자체를 뒤흔드는 사건이다.

Anthropic은 Sonnet 4.6을 claude.ai와 Claude Cowork의 기본 모델로 설정했다. 무료 사용자든 Pro 구독자든 처음 접하는 모델이 Sonnet 4.6이라는 뜻이다. 가장 많은 사용자가 쓰는 모델 자리에 Opus급 성능을 넣은 것이다.

벤치마크가 말하는 진짜 실력

데이터 대시보드 화면 — Sonnet 4.6의 벤치마크 결과는 Opus 4.6과 거의 겹친다

숫자를 하나씩 뜯어보자. Sonnet 4.6이 Opus 4.6에 근접하거나 오히려 앞서는 영역은 놀라울 정도로 많다.

코딩 벤치마크인 SWE-bench Verified에서 Sonnet 4.6은 79.6%, Opus 4.6은 80.8%를 기록했다. 이전 세대인 Sonnet 4.5가 77.2%였으니 2.4%포인트 올랐다. 이 벤치마크는 실제 GitHub 이슈를 기반으로 코드를 수정하는 능력을 측정한다. AI 코딩 도구의 실전 성능을 가늠하는 사실상의 표준이다.

에이전트 컴퓨터 사용 능력을 측정하는 OSWorld-Verified에서는 Sonnet 4.6이 72.5%, Opus 4.6이 72.7%를 기록했다. 0.2%포인트 차이. 사실상 동점이다. 참고로 OpenAI의 GPT-5.2는 같은 벤치마크에서 38.2%에 그쳤다. Sonnet 4.6의 절반 수준이다.

사무 업무 능력을 측정하는 GDPval-AA Elo에서는 역전이 일어났다. Sonnet 4.6이 1633점, Opus 4.6이 1606점이다. 중간 가격 모델이 플래그십을 이긴 것이다. 금융 분석 벤치마크에서도 Sonnet 4.6이 63.3%로 Opus 4.6의 60.1%를 앞섰다.

수학 벤치마크에서는 세대 차이가 극적이다. Sonnet 4.6은 89%를 기록했는데, 이전 세대 Sonnet 4.5는 62%였다. 27%포인트 상승. 같은 모델 라인에서 이 정도 점프는 이례적이다.

벤치마크	Sonnet 4.6	Opus 4.6	차이
SWE-bench Verified	79.6%	80.8%	-1.2%p
OSWorld (컴퓨터 사용)	72.5%	72.7%	-0.2%p
GDPval-AA Elo (사무)	1633	1606	+27
금융 분석	63.3%	60.1%	+3.2%p
수학	89%	—	—
GPQA Diamond (과학)	74.1%	91.3%	-17.2%p

다만 모든 벤치마크에서 Opus를 위협하는 건 아니다. GPQA Diamond, 즉 심층 과학 추론 벤치마크에서 Sonnet 4.6은 74.1%에 그쳤다. Opus 4.6의 91.3%와는 17.2%포인트 격차가 있다. 20단계 이상의 연쇄 추론이 필요한 작업에서는 여전히 Opus가 확실히 앞선다. Sonnet 4.6은 코딩과 실무에서 Opus급이지, 모든 영역에서 Opus급은 아니다.

가격 5분의 1이 바꾸는 계산법

달러 지폐 더미 — Sonnet 4.6은 Opus 대비 80% 비용 절감을 가능하게 한다

가격을 다시 정리하면 이렇다.

모델	입력 (100만 토큰)	출력 (100만 토큰)	비용 배수
Sonnet 4.6	$3	$15	1x
Opus 4.6	$15	$75	5x
GPT-5.3 Codex	$6	$30	2x

Sonnet 4.6의 가격은 이전 세대인 Sonnet 4.5와 동일하다. 성능은 올라가고 가격은 그대로. 소비자에게 이보다 좋은 업그레이드는 없다.

기업 입장에서 이 가격 차이는 단순한 절감이 아니라 용도 자체의 전환을 의미한다. 예를 들어 AI 에이전트를 24시간 가동하는 기업이 있다고 하자. Opus로 돌리면 월 비용이 1만 달러라면, Sonnet 4.6으로 바꾸면 2천 달러다. 8천 달러가 남는다.

이 8천 달러로 에이전트를 5배 더 많이 돌릴 수 있다. 또는 같은 예산으로 더 많은 팀에 AI를 배포할 수 있다. Opus 가격 때문에 소수 팀만 AI를 쓰던 기업이 전사적으로 확대할 수 있게 된다. 비용이 줄어든 게 아니라, 가능한 일의 범위가 넓어진 것이다.

VentureBeat의 보도에 따르면, 1월까지 소규모 파일럿에 머물던 기업들이 Sonnet 4.6 출시 후 전면 도입을 검토하기 시작했다. "Opus를 쓸 이유가 사라졌다"는 반응이 여러 얼리 테스터에게서 나왔다. 물론 과학 추론이나 복잡한 다단계 분석이 필요한 경우 Opus가 여전히 필요하지만, 일반적인 코딩과 업무라면 굳이 5배를 지불할 이유가 없어졌다.

개발자 70%가 이전 모델보다 낫다고 했다

Anthropic은 Claude Code에서 Sonnet 4.6의 선호도 테스트를 진행했다. 결과가 흥미롭다.

Sonnet 4.6 대 Sonnet 4.5 비교에서 70%의 사용자가 Sonnet 4.6을 선호했다. 이건 같은 가격대의 세대 교체니까 예상 가능한 결과다. 놀라운 건 다음이다. Sonnet 4.6 대 Opus 4.5 비교에서 59%의 사용자가 Sonnet 4.6을 선호했다. Opus 4.5는 2025년 11월까지 Anthropic의 최고급 모델이었다. 중간 가격 모델이 이전 세대 최고급 모델을 사용자 선호도에서 이긴 것이다.

선호 이유도 구체적이다. 개발자들은 Sonnet 4.6이 "지시를 더 잘 따르고 과도한 엔지니어링을 덜 한다"고 평가했다. AI 코딩 도구를 써본 개발자라면 이 문제를 잘 안다. "이것만 고쳐줘"라고 했는데 파일 전체를 리팩토링하는 AI. Sonnet 4.6은 그런 경향이 줄었다는 것이다.

거짓 성공 보고도 줄었다. 코드가 실제로 작동하지 않는데 "완료했다"고 말하는 현상, 소위 hallucination이 감소했다. 다단계 작업에서 중간에 포기하지 않고 끝까지 수행하는 비율도 높아졌다.

Snowflake 팀은 텍스트-to-SQL 정확도가 90% 이상에 도달했다고 밝혔다. 자연어로 "지난달 매출 상위 10개 제품을 보여줘"라고 입력하면 정확한 SQL 쿼리가 나온다는 뜻이다. Box CEO Aaron Levie는 헬스케어 작업에서 정확도가 60%에서 78%로, 법률 작업에서 57%에서 69%로 올랐다고 언급했다. 단순히 벤치마크 숫자가 아니라, 실제 기업 환경에서 측정한 수치들이다.

"과도한 엔지니어링을 덜 한다"는 평가는 좀 더 설명이 필요하다. AI 코딩 도구를 쓸 때 가장 흔한 불만 중 하나가 요청하지 않은 변경이다. 함수 하나만 고쳐달라고 했는데, 주변 코드까지 리팩토링하고, 타입을 바꾸고, 테스트까지 재작성하는 식이다. 개발자 입장에서 이건 도움이 아니라 방해다. 변경 범위가 넓어질수록 리뷰해야 할 코드가 늘어나고, 예상치 못한 사이드 이펙트가 생길 수 있다. Sonnet 4.6이 이 문제를 완화했다는 건, 벤치마크보다 실무에서 더 크게 느껴지는 개선이다.

100만 토큰 컨텍스트 윈도우의 의미

코드가 흐르는 화면 — Sonnet 4.6은 100만 토큰으로 대규모 코드베이스를 한 번에 읽는다

Sonnet 4.6은 Sonnet 클래스 모델 최초로 100만 토큰 컨텍스트 윈도우를 지원한다(베타). 이전 세대인 Sonnet 4.5의 컨텍스트 윈도우는 200K 토큰이었다. 5배 확장이다.

100만 토큰이 실제로 어느 정도인지 감을 잡아 보자. 일반적인 소프트웨어 프로젝트의 코드베이스가 수만에서 수십만 줄이다. 100만 토큰이면 대부분의 프로젝트 전체를 한 번에 읽을 수 있다. 개별 파일을 오가며 맥락을 잃는 문제가 구조적으로 해소된다.

Claude Code에서 이 차이가 두드러진다. 코드베이스 전체를 읽고 나서 수정하는 것과, 일부만 읽고 추측으로 수정하는 것은 결과물이 다르다. 얼리 테스터들은 Sonnet 4.6이 "코드를 수정하기 전에 맥락을 먼저 읽는다"고 평가했다. 100만 토큰이니까 가능한 일이다.

adaptive thinking 기능도 추가됐다. 단계별 추론을 수행하는 기능으로, 복잡한 문제를 한 번에 답하는 대신 단계를 나눠 생각하는 방식이다. Opus에만 있던 이 기능이 Sonnet 가격대에서 쓸 수 있게 됐다.

보안도 강화됐다. 프롬프트 인젝션 저항성이 Opus 수준으로 올라갔다. AI 에이전트를 업무에 배포할 때 가장 큰 우려 중 하나가 프롬프트 인젝션 공격이다. 외부 데이터를 처리하는 에이전트가 악의적 지시에 속지 않아야 한다. 이 저항성이 Opus급이라는 건 기업 배포의 진입 장벽이 낮아졌다는 뜻이다.

지식 데이터 기준일(knowledge cutoff)도 2025년 8월로 업데이트됐다. Sonnet 4.5의 기준일이 2025년 2월이었으니 6개월 앞당겨졌다. 최신 라이브러리나 API 변경 사항을 더 잘 반영한다.

GPT-5.2와 Gemini 3, 경쟁 구도는 어떻게 바뀌나

Sonnet 4.6만 놓고 보면 대단해 보이지만, 경쟁사 모델과 비교해야 전체 그림이 보인다.

OpenAI의 GPT-5.2는 SWE-bench Verified에서 80.0%를 기록한다. Sonnet 4.6의 79.6%와 거의 동일하다. 하지만 가격이 다르다. GPT-5.3 Codex 기준 입력 6달러, 출력 30달러. Sonnet 4.6의 2배다. 코딩 성능이 같은데 가격이 2배면, 비용에 민감한 기업은 Sonnet 4.6을 선택할 수밖에 없다.

GPT-5.2가 앞서는 영역은 순수 수학과 과학 추론이다. 수학 올림피아드 수준의 문제나 물리학 논문 분석 같은 작업에서는 GPT-5.2가 여전히 강하다. 하지만 대부분의 기업 업무에서 이런 수준의 수학이 필요한 경우는 드물다.

Google의 Gemini 3 Pro는 다른 방향에서 경쟁한다. SWE-bench에서는 76.2%로 Sonnet 4.6보다 낮지만, 멀티모달 처리에서 독보적이다. 텍스트, 이미지, 오디오, 비디오를 단일 컨텍스트에서 네이티브로 처리한다. Sonnet 4.6이나 GPT-5.2는 비디오 네이티브 처리가 안 된다. Google 생태계와의 통합도 Gemini의 강점이다.

항목	Sonnet 4.6	GPT-5.2	Gemini 3 Pro
SWE-bench	79.6%	80.0%	76.2%
OSWorld	72.5%	38.2%	—
입력 가격 (100만 토큰)	$3	$6	다양
비디오 네이티브	불가	불가	가능
강점	코딩, 에이전트, 가격	수학, 과학	멀티모달, 속도

결론적으로 2026년 2월 기준, 코딩과 에이전트 작업에서 가성비 1위는 Sonnet 4.6이다. "최고 성능"이 아니라 "이 가격에 이 성능"이라는 프레이밍이 핵심이다. 1.2%포인트 더 높은 성능을 위해 5배 비용을 지불할 것인가, 아니면 98%의 성능을 20%의 비용으로 가져갈 것인가. 대부분의 기업에게 답은 명확하다.

Opus는 그래서 죽은 건가

Sonnet 4.6이 이 정도 성능이면, Opus의 존재 이유가 뭔지 묻는 게 자연스럽다. Anthropic은 이 질문을 예상했을 것이다.

Opus 4.6이 확실히 앞서는 영역은 세 가지다. 첫째, 심층 과학 추론. GPQA Diamond에서 91.3% 대 74.1%의 격차는 무시할 수 없다. 논문 수준의 과학적 분석, 새로운 연구 가설 생성, 복잡한 실험 설계 같은 작업에서는 Opus가 필요하다.

둘째, 20단계 이상의 연쇄 추론. 단일 프롬프트 안에서 20개 이상의 논리적 단계를 거쳐야 하는 작업에서 Opus는 여전히 안정적이다. Sonnet 4.6은 이 수준에서 일관성이 떨어진다. 복잡한 시스템 설계나 장기 전략 수립 같은 작업이 해당된다.

셋째, 장문 컨텍스트 안정성. 100만 토큰 컨텍스트 윈도우를 지원하는 건 Sonnet 4.6도 마찬가지지만, 그 긴 컨텍스트 안에서 정보를 정확하게 추적하는 능력은 Opus가 우위다. MRCR v2 벤치마크에서 Opus 4.6은 76%를 기록한 반면 Sonnet 4.5는 18.5%에 그쳤다. Sonnet 4.6의 정확한 수치는 아직 공개되지 않았지만, 이 둘 사이 어딘가일 것으로 추정된다.

하지만 이 세 가지에 해당하지 않는 나머지 모든 작업에서 Sonnet 4.6은 Opus의 98% 성능을 20% 비용으로 제공한다. Opus가 죽은 건 아니다. 하지만 Opus가 필요한 사용자의 범위가 확 줄었다. 과학자, 연구원, 극도로 복잡한 시스템을 설계하는 소수의 엔지니어. 나머지에게 Opus는 과잉 사양이 됐다.

이건 스마트폰 시장에서 벌어진 일과 비슷하다. 플래그십 폰의 카메라가 10% 더 좋지만, 중간 가격 폰의 카메라도 충분히 좋아진 시점이 있었다. 그 시점에서 대부분의 소비자는 중간 가격을 선택했다. AI 모델 시장이 그 시점에 도달한 것이다.

Anthropic 입장에서도 이건 계산된 전략이다. Opus는 이윤율이 높지만 사용자 수가 제한적이다. 비싸니까. Sonnet은 이윤율이 낮지만 사용자 수가 압도적으로 많다. 전체 수익으로 보면 Sonnet 사용자를 늘리는 것이 더 유리할 수 있다. Sonnet 4.6을 기본 모델로 설정한 것도 이 전략의 일환이다. 최대한 많은 사람이 Sonnet 4.6을 경험하게 하고, API 사용량을 늘리는 것이다.

진짜 경쟁은 모델이 아니라 가격이다

Anthropic이 Sonnet 4.6으로 보여준 것은 단순한 모델 성능 향상이 아니다. 가격-성능 커브의 급격한 이동이다.

6개월 전만 해도 Opus급 성능을 원하면 Opus 가격을 내야 했다. 선택지가 없었다. 이제 같은 성능을 5분의 1 가격에 쓸 수 있다. 이건 AI를 사용하는 기업에게 단순한 비용 절감을 넘어 전략적 변화를 의미한다.

Figma는 Sonnet 4.6 출시에 맞춰 "Code to Canvas" 기능을 발표했다. Anthropic과의 파트너십이다. CNBC는 Sonnet 4.6을 "Anthropic의 파격적 모델 출시 속도를 보여주는 사례"로 보도했다. AI Business는 "Anthropic이 대화의 프레임을 바꾸려 한다"고 분석했다. 최고 성능 경쟁에서 최적 가격 경쟁으로.

OpenAI와 Google도 가만히 있지 않을 것이다. GPT-5.2의 가격이 내려가거나, Gemini 3의 중간 가격 모델이 나오거나, 아니면 더 저렴한 새 모델이 출시되거나. 가격-성능 경쟁이 본격화된다. 이 경쟁에서 가장 이익을 보는 건 AI 모델을 사용하는 개발자와 기업이다.

다만 한 가지 주의할 점이 있다. 벤치마크는 벤치마크일 뿐이다. SWE-bench에서 79.6%라는 건 테스트 세트의 79.6%를 해결했다는 뜻이지, 모든 코딩 작업의 79.6%를 완벽하게 수행한다는 뜻이 아니다. 실제 업무에서의 경험은 벤치마크와 다를 수 있다. 특히 도메인 특화 작업, 레거시 코드 유지보수, 대규모 시스템 아키텍처 설계 같은 영역에서는 벤치마크가 포착하지 못하는 차이가 존재한다.

한 가지 더 생각해볼 것이 있다. 벤치마크 결과가 동일하더라도, 모델의 "느낌"이 다를 수 있다. 같은 SWE-bench 점수라도 코드를 생성하는 스타일, 에러를 처리하는 방식, 모호한 요구사항을 해석하는 경향이 모델마다 다르다. 개발자 선호도 테스트에서 Sonnet 4.6이 Opus 4.5를 이긴 것은, 숫자로 측정되지 않는 이 "느낌"의 차이 때문일 수 있다.

그럼에도 방향은 분명하다. AI 모델의 가격은 내려가고 성능은 올라간다. 이전에는 비용 때문에 시도하지 못했던 AI 활용 방식이 가능해진다. Sonnet 4.6은 그 변화의 가장 최근 사례이고, 아마 마지막은 아닐 것이다. 다음 분기에는 또 다른 모델이 같은 성능을 더 낮은 가격에 제공하겠지. AI 시장에서 유일하게 확실한 것은, 지금 가격이 내일의 가격보다 비싸다는 사실이다.

출처: