Gemini 3.1이 왕좌 탈환이라는 Google의 착각

16개 중 13승이라는 숫자의 이면

체스판 위의 킹 — Google이 주장하는 왕좌는 어떤 판에서의 승리인가

2026년 2월 19일, Google DeepMind가 Gemini 3.1 Pro를 공개했다. 공식 블로그의 헤드라인은 단호했다. "가장 복잡한 작업을 위한 더 똑똑한 모델." VentureBeat는 한술 더 떠서 "AI 왕좌 탈환(retaking AI crown)"이라는 표현을 썼다. 근거는 벤치마크였다. Google은 16개 주요 벤치마크 중 13개에서 1위를 차지했다고 발표했다.

숫자만 보면 압도적이다. 하지만 그 숫자가 어떻게 만들어졌는지를 들여다보면 이야기가 달라진다.

SmartScope의 분석이 핵심을 찌른다. Google이 선택한 16개 벤치마크 중 상당수에서 경쟁 모델의 점수가 아예 빠져 있다. 특히 GPT-5.3-Codex는 16개 벤치마크 중 겨우 2개만 점수가 공개된 상태다. 나머지 14개에서 Gemini가 "이겼다"고 말하는 건, 상대가 경기에 출전하지 않은 시합에서 금메달을 주장하는 것과 다르지 않다.

더 흥미로운 건 빠진 벤치마크다. Anthropic이 발표한 Opus 4.6의 OSWorld 점수 72.7%는 Google의 표에 등장하지 않는다. MRCR v2 100만 토큰 벤치마크에서 Google은 Opus 4.6를 "Not supported"로 표기했는데, Anthropic은 베타 100만 컨텍스트 윈도우로 76%를 달성했다고 주장한다. 자기에게 유리한 벤치마크를 선택하고, 불리한 벤치마크를 제외하는 것은 새삼스러운 일이 아니다. 하지만 그것을 "왕좌 탈환"이라 포장하는 건 다른 문제다.

벤치마크에서의 실제 성적표

데이터 대시보드 화면 — 벤치마크 숫자는 맥락 없이 읽으면 오해를 낳는다

벤치마크를 공정하게 비교하려면, Google이 선택한 판이 아니라 제3자가 설계한 판에서 봐야 한다. Artificial Analysis의 종합 지수에서 Gemini 3.1 Pro는 57점을 기록했다. Claude Opus 4.6는 53점이다. 4점 차이. VentureBeat의 "왕좌 탈환"이라는 표현이 이 4점에서 나왔다.

하지만 같은 Artificial Analysis가 공개한 세부 항목을 보면, 풍경이 달라진다. Chatbot Arena에서는 Gemini 3.1 Pro가 Opus 4.6를 넘지 못한다. 인간 평가자의 블라인드 테스트에서 두 모델은 사실상 동률이다. 종합 지수에서 4점 앞섰다고 "AI 왕좌"를 주장하기엔, 실제 사용자 체감은 그만큼의 차이를 느끼지 못하고 있다는 뜻이다.

개별 벤치마크를 뜯어보면 강점과 약점이 확연히 갈린다.

추상 추론 영역에서 Gemini 3.1 Pro는 확실히 강하다. ARC-AGI-2에서 77.1%를 기록했고, Opus 4.6는 68.8%에 그쳤다. 8.3%포인트 차이는 이 난이도에서 상당하다. 소수의 예시에서 규칙을 유도해내는 능력, 즉 순수 추론 성능에서 Gemini가 앞서는 것은 사실이다.

과학 지식 벤치마크인 GPQA Diamond에서도 Gemini가 94.3%로 Opus 4.6의 91.3%를 넘었다. 대학원 수준의 물리, 화학, 생물학 문제에서 3%포인트 차이는 의미 있는 격차다.

하지만 이 서사가 뒤집히는 지점이 있다. 실무 전문 작업이다.

벤치마크	Gemini 3.1 Pro	Claude Opus 4.6	Claude Sonnet 4.6	비고
ARC-AGI-2 (추상 추론)	77.1%	68.8%	—	Gemini 우위
GPQA Diamond (과학)	94.3%	91.3%	—	Gemini 우위
GDPval-AA (전문 업무)	Elo 1317	Elo 1606	Elo 1633	Claude 압도
SWE-Bench Verified (코딩)	80.6%	80.8%	—	사실상 동률
HLE 도구 사용	51.4%	53.1%	—	Claude 우위
Artificial Analysis 종합	57	53	—	Gemini 소폭 우위

GDPval-AA는 금융, 법률, 전략 기획 같은 기업 실무 작업을 측정한다. 여기서 Gemini 3.1 Pro의 Elo는 1317이다. Claude Opus 4.6는 1606, Sonnet 4.6는 1633이다. 약 300점 차이. 추상 추론에서의 8.3%포인트 우위가 무색해지는 격차다. 잘 짜인 기획서, 감정적 뉘앙스가 필요한 문서, 복잡한 오피스 워크플로우에서 Anthropic 모델이 구조적 우위를 가지고 있다.

코딩 벤치마크의 착시 효과

소프트웨어 개발자에게 가장 직접적으로 와닿는 벤치마크는 SWE-Bench다. 실제 오픈소스 프로젝트의 이슈를 AI가 이해하고, 코드를 탐색하고, 수정 코드를 작성하고, 검증까지 하는 과정을 측정한다. SWE-Bench Verified에서 Gemini 3.1 Pro는 80.6%, Claude Opus 4.6는 80.8%, GPT-5.3-Codex는 80.0%를 기록했다.

세 모델이 0.8%포인트 안에 몰려 있다. 이 밀도에서 "누가 이겼다"를 논하는 건 의미가 없다. 통계적 노이즈 수준의 차이다. 업계가 단일 언어, 단일 저장소 수준의 코드 수정에서 일시적 정체기(plateau)에 도달했다는 해석이 더 정확하다.

더 복잡한 조건을 부여하면 순위가 달라진다. SWE-Bench Pro는 다중 언어 환경에서의 코드 수정을 측정한다. 여기서 GPT-5.3-Codex가 56.8%로 1위, Gemini 3.1 Pro가 54.2%로 뒤따른다. 단일 파이썬 저장소에서는 어깨를 나란히 하지만, 현실의 다중 언어 프로젝트로 가면 격차가 벌어진다.

Humanity's Last Exam에서도 비슷한 패턴이 나타난다. 도구 없이 순수 지식만으로 풀 때는 Gemini가 44.4%로 Claude의 40.0%를 넘긴다. 하지만 도구 사용이 허용되면 Claude가 53.1%로 Gemini의 51.4%를 역전한다. 외부 도구를 활용해 추론을 보강하는 능력, 즉 에이전틱(agentic) 역량에서 Claude가 앞선다는 뜻이다.

이 차이가 중요한 이유가 있다. 2026년 AI 코딩의 트렌드는 단순 코드 생성이 아니라, 코드 에이전트의 자율적 작업 수행이다. Claude Code, OpenAI Codex 같은 도구가 각광받는 이유도 여기 있다. 벤치마크 점수 0.2% 차이보다, 실제 에이전틱 워크플로우에서 모델이 얼마나 안정적으로 도구를 활용하는지가 개발자에게는 훨씬 중요하다. Google은 이 부분에서 아직 명확한 답을 내놓지 못하고 있다.

환각률 50%라는 진보의 함정

Gemini 3.1 Pro의 기술적 진보 중 가장 눈에 띄는 것은 환각률(hallucination rate) 개선이다. AA-Omniscience Knowledge and Hallucination Benchmark에서 환각률이 88%에서 50%로 떨어졌다. 38%포인트 감소. 수치만 보면 극적인 개선이다.

하지만 맥락이 빠져 있다. 50%라는 숫자의 의미를 생각해 보자. AI가 답변하는 내용의 절반이 여전히 사실이 아닐 수 있다는 뜻이다. 동전 던지기 수준이다. 88%에서 50%로 내려간 건 분명한 진보이지만, 50%가 "신뢰할 수 있는" 수준이라고 말하기는 어렵다.

독립적인 커뮤니티 벤치마크에서도 이 문제가 확인된다. Gemini 3 Pro가 프론티어 모델 중 가장 높은 환각률을 기록했다는 분석이 있었고, 3.1 Pro가 이를 크게 개선한 것은 맞지만 "개선"과 "해결"은 다른 단어다. 특히 기술 논문 평가 같은 니치 시나리오에서 답변이 프롬프트에 따라 오락가락하는 현상이 보고되고 있다.

런칭 직후의 기술적 문제도 있었다. 간단한 쿼리에 104초가 걸리는 지연이 보고됐다. "이 모델은 현재 높은 수요를 경험하고 있습니다"라는 에러 메시지가 빈번했고, "작업 완료 전 데드라인 초과" 오류도 있었다. 벤치마크에서 측정한 성능과 실제 API를 통해 개발자가 경험하는 성능 사이에 간극이 있었다는 뜻이다.

세 단계 사고 수준(thinking level) 시스템은 Gemini 3.1 Pro의 가장 흥미로운 신기능이다. 낮음(low), 중간(medium), 높음(high) 세 단계로 모델이 응답에 투자하는 연산량을 사용자가 조절할 수 있다. VentureBeat는 이를 "Deep Think Mini"라 불렀다. 간단한 질문에는 낮은 단계로 빠르게 답하고, 복잡한 추론이 필요할 때만 높은 단계를 쓰면 비용과 시간을 절약할 수 있다.

개념적으로는 합리적이다. 하지만 실제 사용 후기를 보면, 어떤 단계를 선택할지 판단하는 것 자체가 새로운 인지 부하다. 사용자가 문제의 복잡도를 정확히 예측해야 올바른 단계를 고를 수 있는데, 문제의 복잡도를 정확히 예측할 수 있는 사용자라면 애초에 AI에게 맡기지 않을 수도 있다. 기능의 유용성과 사용성 사이의 간극이다.

가격은 진짜 경쟁력인가

벤치마크 외에 Google이 확실한 우위를 가진 영역이 있다. 가격이다.

Gemini 3.1 Pro의 가격은 입력 100만 토큰당 2달러, 출력 100만 토큰당 12달러다. 20만 토큰을 초과하는 대형 요청의 경우 입력 4달러, 출력 18달러로 올라간다. 컨텍스트 캐싱을 활용하면 비용을 최대 75%까지 줄일 수 있다.

비교하면 차이가 극명하다.

모델	입력 (100만 토큰)	출력 (100만 토큰)	비율 (Gemini 대비)
Gemini 3.1 Pro	$2	$12	1x
Claude Sonnet 4.6	$3	$15	1.3x
Claude Opus 4.6	$15	$75	6.3x
GPT-5.2	$10	$30	2.5x~3x

Gemini 3.1 Pro는 Opus 4.6의 6분의 1 가격에 벤치마크 대부분에서 경쟁하거나 앞선다. Sonnet 4.6와 비교해도 30% 저렴하다. 이전 모델인 Gemini 3 Pro와 동일한 가격이므로, 기존 사용자에게는 무료 업그레이드나 다름없다.

가격 경쟁력은 부정할 수 없다. 하지만 "저렴하다"와 "최고다"는 다른 주장이다. Google이 내세우는 서사는 후자인데, 데이터가 뒷받침하는 건 전자에 가깝다. 벤치마크 선택을 신중하게 하면 "13전 13승"도 만들 수 있고, "13전 8승"도 만들 수 있다. 문제는 어떤 벤치마크가 실제 사용 가치를 반영하느냐다.

비용 효율성에서 Gemini 3.1 Pro가 앞서는 건 사실이다. 하지만 비용 효율성이 곧 "왕좌"는 아니다. 가성비 최고의 자동차와 최고의 자동차는 다른 카테고리다.

Google 벤치마크 서사의 반복되는 패턴

Google의 AI 모델 발표에는 패턴이 있다. 새 모델이 나올 때마다 "최고" 또는 "왕좌 탈환"이라는 수식어가 붙고, 며칠 후 독립 검증에서 더 복잡한 그림이 드러난다.

2023년 12월 Gemini 1.0 Ultra 출시 때도 그랬다. Google은 MMLU에서 GPT-4를 처음으로 넘겼다고 발표했다. MIT Technology Review는 이를 두고 "놀라워 보이지만, 동시에 AI 과대광고의 정점을 신호할 수 있다"고 평했다. 전문가들은 Google이 사용하는 벤치마크가 실제 성능을 얼마나 반영하는지 불분명하며, 투명성 없이는 주장을 검증하기 어렵다고 지적했다. 범용 모델을 표방하면서 좁은 벤치마크로 평가하는 것 자체가 모순이라는 비판도 있었다.

Gemini 2.5 Pro 때도 유사했다. "역대 최강" 벤치마크를 내세웠지만, 실사용에서는 환각률이 높다는 평가가 뒤따랐다. Gemini 3 Pro는 전작 대비 50% 이상의 벤치마크 개선을 내세웠으나, 프론티어 모델 중 가장 높은 환각률이라는 독립 분석이 나왔다.

이번 3.1 Pro도 같은 궤적을 밟고 있다. 출시 당일에는 "13/16 벤치마크 1위"가 헤드라인을 장식했다. 며칠 후에는 SmartScope 같은 독립 분석이 빠진 벤치마크와 부재한 경쟁자 데이터를 지적하기 시작했다. Hacker News에서는 개발자들이 실사용 경험을 공유하면서, 벤치마크와 체감 사이의 괴리를 언급하고 있다.

이 패턴이 반복되는 이유가 있다. Google에게 AI는 단순한 제품이 아니라 주가를 움직이는 서사다. Alphabet의 시가총액은 AI 경쟁력에 대한 시장의 인식에 직결된다. 벤치마크 1위 발표 → 기술 매체의 "왕좌 탈환" 보도 → 투자자 신뢰 강화. 이 사이클에서 벤치마크의 정밀한 맥락은 소음에 묻힌다.

문제는 이 서사가 개발자와 기업의 기술 선택을 왜곡할 수 있다는 점이다. "16개 중 13개 1위"라는 헤드라인을 보고 Gemini를 선택한 기업이, 막상 전문 업무 작업에서 Claude 대비 300 Elo 차이의 성능 격차를 경험하면 신뢰가 무너진다.

개발자가 실제로 경험하는 Gemini 3.1 Pro

벤치마크를 벗어나 실사용 경험으로 가면, 평가는 더 뉘앙스가 생긴다.

Analytics Vidhya의 핸즈온 테스트에 따르면, Gemini 3.1 Pro는 제약 조건이 많은 논리 문제에서 강점을 보인다. 유효한 조합을 열거하는 과정에서 모순에 빠지지 않는 일관성이 인상적이라는 평가다. 대부분의 모델이 제약 조건이 복잡해지면 자기 모순에 빠지는데, 3.1 Pro는 추론 깊이가 확실히 개선됐다.

반면, 긴 반복적 코딩 세션에서는 다른 이야기가 나온다. 여러 개발자가 Gemini가 "원샷(one-shotting)"에는 강하지만, Claude Code나 OpenAI Codex처럼 장시간 반복적으로 코드를 수정하고 개선하는 워크플로우에서는 뒤처진다고 보고한다. 한 번에 좋은 답을 내놓는 능력과, 여러 차례에 걸쳐 점진적으로 코드를 개선하는 능력은 다른 근육이다.

출력 토큰 한도도 실무에서 차이를 만든다. Gemini 3.1 Pro의 최대 출력은 64K 토큰이다. Opus 4.6는 128K 토큰을 지원한다. 긴 문서 생성, 대규모 코드 리팩토링, 상세한 분석 보고서 작성에서 출력 한도가 절반이라는 건 실질적인 제약이다.

입력 컨텍스트는 100만 토큰으로, 이 부분에서는 Gemini가 강점을 가진다. 대규모 코드베이스를 한 번에 넣고 분석하는 시나리오에서 100만 토큰 컨텍스트는 강력한 무기다. 하지만 컨텍스트 윈도우가 크다고 해서 그 전체를 효과적으로 활용하는지는 별개 문제다. "긴 바늘 찾기(needle in a haystack)" 벤치마크에서의 성능과 실제 100만 토큰 분량의 코드를 의미 있게 이해하는 능력 사이에도 간극이 있다.

정리하면, Gemini 3.1 Pro는 분명히 강력한 모델이다. 이전 세대 대비 추론 능력이 크게 향상됐고, 가격 대비 성능은 시장 최고 수준이다. 하지만 "왕좌"라는 단어가 함의하는 전방위적 우위는 데이터로 뒷받침되지 않는다.

왕좌는 단수가 아니라 복수다

AI 모델 경쟁을 "왕좌" 비유로 설명하는 것 자체가 시대착오적이다. 2026년의 AI 모델 생태계는 하나의 왕좌를 두고 다투는 구조가 아니다. 용도별로 다른 왕좌가 존재하고, 각 모델이 서로 다른 왕좌에 앉아 있다.

추상 추론의 왕좌에는 Gemini 3.1 Pro가 앉아 있다. ARC-AGI-2 77.1%는 현재 최고 수치다. 기업 전문 업무의 왕좌에는 Claude가 앉아 있다. GDPval-AA에서 300 Elo 차이는 무시할 수 없는 구조적 우위다. 비용 효율성의 왕좌에는 Gemini가 확실히 앉아 있다. 가격 대비 성능에서 Opus의 6분의 1은 압도적이다. 에이전틱 코딩의 왕좌는 아직 논쟁 중이지만, Claude Code와 OpenAI Codex가 생태계 선점에서 앞서 있다.

Google이 "왕좌 탈환"을 주장할 때 간과하는 것이 있다. 진짜 경쟁은 벤치마크 순위표가 아니라 개발자의 워크플로우 안에서 벌어진다는 사실이다. 개발자가 매일 쓰는 도구가 무엇인지, 기업이 프로덕션에 어떤 모델을 배포하는지, 스타트업이 어떤 API를 선택하는지. 이 선택은 16개 벤치마크 중 몇 개를 이겼느냐가 아니라, 내가 하는 작업에서 어떤 모델이 가장 안정적으로 좋은 결과를 내는지에 달려 있다.

Gemini 3.1 Pro는 좋은 모델이다. 가격 대비 성능만 놓고 보면 현재 시장에서 가장 합리적인 선택지 중 하나다. 하지만 "왕좌 탈환"이라는 서사는 Google의 마케팅이지, 데이터의 결론이 아니다. 13전 13승 같은 숫자를 볼 때마다 물어야 하는 질문은 "몇 개를 이겼느냐"가 아니라, **"어떤 시합을 골랐느냐"**다.

벤치마크 전쟁에서 진짜 이기는 방법은 벤치마크에서 이기는 것이 아니다. 사용자가 벤치마크를 확인하지 않아도 될 만큼 좋은 제품을 만드는 것이다. Google이 아직 거기까지 도달하지 못했다는 것이, 이번 발표에서 가장 많이 드러난 사실이다.

출처: