16개 중 13승이라는 Gemini의 교묘한 셈법

부전승을 승리라 부르는 법

16개 중 13승. 이 숫자만 보면 압도적이다. Google은 Gemini 3.1 Pro를 발표하면서 이 비율을 전면에 내세웠다. 기술 매체들은 "AI 왕좌 탈환"이라는 헤드라인을 달았고, 투자자들은 안도했다. 하지만 SmartScope가 이 숫자를 해부한 결과는 전혀 다른 풍경을 보여준다.

핵심은 이것이다. GPT-5.3-Codex는 16개 벤치마크 중 겨우 2개에만 점수를 공개했다. 나머지 14개에서 Codex의 점수는 아예 존재하지 않는다. 상대가 경기에 나오지 않은 시합에서 금메달을 주장하는 것과 구조적으로 같다. Google의 비교표에서 "Gemini 1위"라고 적힌 칸 중 상당수는 사실 "다른 모델의 점수가 미공개"인 칸이었다.

부전승도 승리이긴 하다. 하지만 부전승 13개를 들고 "역대 최강"이라 말하면, 그건 승리가 아니라 **수사(修辭)**다. 이 글에서는 Google이 13승을 만들어낸 구체적인 메커니즘을 하나씩 뜯어본다.

빠진 벤치마크가 말해주는 것

Google이 비교표에 포함한 16개 벤치마크는 Google이 선택한 것이다. 문제는 빠진 벤치마크에 있다. SmartScope는 Google의 표에서 의도적으로 제외된 것으로 보이는 벤치마크 세 가지를 지목한다.

첫째, OSWorld다. 운영체제 수준의 컴퓨터 사용 능력을 측정하는 벤치마크로, Opus 4.6가 72.7%를 기록했다. 이 점수는 Google의 비교표에 등장하는 어떤 모델의 점수보다 높다. 하지만 Google의 표에 OSWorld는 없다.

둘째, BigLaw Bench다. 대형 로펌 수준의 법률 추론을 측정한다. Opus 4.6가 90.2%를 기록했다. 법률, 금융, 전략 기획 같은 전문 업무에서 AI의 실력을 보여주는 벤치마크인데, Google의 표에서 빠져 있다.

셋째, MRCR v2 100만 토큰이다. 100만 토큰 규모의 긴 문맥을 얼마나 정확하게 이해하는지 측정한다. Google은 이 항목에서 Opus 4.6를 "Not supported"로 표기했다. 하지만 Anthropic은 베타 100만 컨텍스트 윈도우를 통해 76%를 달성했다고 발표했다. 지원하지 않는 게 아니라, 지원 방식이 다를 뿐이었다.

데이터 분석 대시보드 — 어떤 데이터를 포함하고 제외하느냐에 따라 결론이 바뀐다

이 세 벤치마크의 공통점이 있다. 모두 Claude가 강세인 영역이라는 것이다. Google이 의도적으로 제외했는지, 아니면 단순히 해당 벤치마크에서 Gemini의 점수가 없어서 넣지 못한 것인지는 알 수 없다. 하지만 결과적으로 Google의 비교표는 Gemini가 강한 영역 위주로 구성됐고, Claude가 강한 영역은 빠져 있다.

벤치마크 선택은 중립적 행위가 아니다. 16개를 고르는 행위 자체가 이미 서사를 결정한다. 다른 16개를 골랐다면 "13승"은 "8승"이 됐을 수도 있다. 비유하자면, 수학, 과학, 영어, 체육, 음악 중에서 수학과 과학만 골라 성적표를 만든 뒤 "전교 1등"이라 주장하는 것과 같다. 틀린 말은 아닐 수 있지만, 전체 그림은 아니다.

조건을 바꾸면 순위가 뒤집힌다

같은 벤치마크라도 측정 조건에 따라 순위가 달라진다. SmartScope가 지적한 가장 인상적인 사례는 **HLE(Humanity's Last Exam)**다.

도구 없이 순수 지식만으로 풀 때, Gemini 3.1 Pro가 44.4%로 Opus 4.6의 40.0%를 넘긴다. 4.4%포인트 차이. Gemini의 승리다. 하지만 도구 사용이 허용되면 판이 뒤집힌다. Opus 4.6가 53.1%로 Gemini의 51.4%를 역전한다. 같은 시험인데, 연장 도구를 쓸 수 있느냐에 따라 우열이 바뀌는 것이다.

Google의 비교표에는 어떤 조건이 적용됐을까. 도구 없는 조건이다. 자연스럽게 Gemini가 이긴 버전이 채택됐다.

Terminal-Bench 2.0에서도 같은 패턴이 반복된다. Google이 공개한 것은 표준 하네스(standard harness) 결과다. 이 조건에서 Gemini 3.1 Pro는 68.5%, GPT-5.3-Codex는 64.7%다. Gemini의 승리. 하지만 Codex가 자체 커스텀 하네스로 측정한 점수는 **77.3%**다. 표준 하네스에서 뒤진 모델이 커스텀 하네스에서는 압도하는 상황이다.

SmartScope는 묻는다. "Google이 커스텀 하네스 결과를 갖고 있지 않은 건지, 아니면 갖고 있으면서 공개하지 않은 건지." 어느 쪽이든 13승에 포함된 Terminal-Bench 승리의 의미가 달라진다.

벤치마크	조건	Gemini 3.1 Pro	경쟁 모델	승자
HLE	도구 없음	44.4%	Opus 4.6: 40.0%	Gemini
HLE	도구 사용	51.4%	Opus 4.6: 53.1%	Claude
Terminal-Bench 2.0	표준 하네스	68.5%	Codex: 64.7%	Gemini
Terminal-Bench 2.0	커스텀 하네스	—	Codex: 77.3%	Codex

한 벤치마크에서 조건 하나 바꾸면 승패가 뒤집히는 상황에서, Google은 일관되게 자기에게 유리한 조건을 선택했다. 이것이 부정행위라는 뜻은 아니다. 어떤 회사든 자사 모델에 가장 유리한 조건을 발표자료에 넣는다. 하지만 "13승"이라는 숫자가 절대적 사실이 아니라 특정 조건 하의 스냅샷이라는 것은 분명하다.

여기서 짚어야 할 구조적 문제가 있다. 벤치마크는 본래 모델 간 공정한 비교를 위해 만들어졌다. 하지만 측정 조건을 공개하지 않으면 비교의 전제가 무너진다. HLE에서 도구 사용 여부를 명시하지 않은 채 "Gemini 1위"라고만 쓰면, 읽는 사람은 모든 조건에서 Gemini가 이긴 것으로 이해한다. Terminal-Bench에서 "표준 하네스 기준"이라는 단서를 빼면, Codex가 커스텀 하네스에서 12.6%포인트 앞선다는 사실은 증발한다. 숫자를 조작할 필요도 없다. 조건을 생략하는 것만으로 서사를 바꿀 수 있다.

기업 실무에서 벌어지는 300점 격차

벤치마크 체리피킹의 가장 심각한 결과는, 실무 성능의 격차를 가리는 것이다. Google의 비교표에서 가장 불편한 숫자는 GDPval-AA에 있다.

GDPval-AA는 금융 분석, 법률 검토, 전략 기획 같은 기업 전문 업무를 측정하는 벤치마크다. 이 벤치마크에서의 점수는 이렇다.

모델	GDPval-AA Elo
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
Gemini 3.1 Pro	1317

약 300 Elo 차이다. 체스에서 300 Elo 차이는 아마추어와 프로의 격차에 해당한다. Sonnet 4.6는 Opus보다 저렴한 모델인데도 Gemini 3.1 Pro를 300점 이상 앞선다. 추상 추론에서 Gemini가 ARC-AGI-2로 8.3%포인트 앞선 것이 무색해지는 수치다.

이 격차가 중요한 이유가 있다. ARC-AGI-2는 학술적으로 흥미롭지만, 일상적으로 AI를 쓰는 맥락은 추상 패턴 인식이 아니다. 기획서 작성, 계약서 검토, 재무 분석, 고객 응대 시나리오 설계. 이런 업무에서 300 Elo 격차는 체감이 확연하다. 감정적 뉘앙스가 필요한 문서에서 미묘한 톤 조절, 복잡한 조건이 얽힌 법률 텍스트의 정확한 해석. Gemini가 뒤처지는 영역이 바로 기업이 돈을 내고 AI를 쓰는 영역과 겹친다.

Google의 13승 서사에서 이 300점 격차는 어떻게 처리됐을까. GDPval-AA는 16개 벤치마크 중 하나로 포함되긴 했다. 하지만 16개 중 1개다. 나머지 12개에서 이기면 전체 서사는 "압도적 승리"가 된다. 가중치 없는 단순 승수(勝數) 비교가 300 Elo 격차의 심각성을 희석시키는 것이다.

모든 벤치마크가 동등한 중요도를 가진 것은 아니다. ARC-AGI-2에서 8%포인트 앞서는 것과 GDPval-AA에서 300 Elo 뒤처지는 것은 같은 무게가 아니다. 하지만 "13 대 3"이라는 프레임은 이 차이를 지운다. 승수만 세는 방식은 모든 벤치마크에 동일한 가중치를 부여하고, 격차의 크기를 무시한다. 0.2%포인트 차이의 승리도 300 Elo 차이의 패배도 똑같이 1승, 1패로 계산된다.

Arena에서의 4점은 왕좌인가

벤치마크 바깥에서 가장 신뢰받는 평가 기준은 Chatbot Arena다. 인간 평가자가 두 모델의 답변을 블라인드로 비교해서 더 나은 쪽을 고르는 방식이다. 벤치마크처럼 특정 과제에 최적화하기 어려워서, 모델의 종합적인 체감 품질을 반영한다는 평가를 받는다.

Arena에서 Gemini 3.1 Pro는 1500 Elo, Opus 4.6는 1504 Elo다. 4점 차이. 통계적으로 의미 없는 수준이다. "사실상 동률"이라는 표현이 정확하다.

4점 차이를 "왕좌 탈환"이라 부를 수 있을까. VentureBeat의 헤드라인은 그렇게 했다. Google의 마케팅 자료도 그런 뉘앙스를 풍겼다. 하지만 데이터가 말하는 것은 다르다. 인간 사용자가 두 모델을 직접 비교했을 때, 어느 쪽이 더 낫다고 판단하는 것이 사실상 불가능한 수준이라는 뜻이다.

여기서 한 가지 더 짚어야 할 것이 있다. Artificial Analysis의 종합 지수에서 Gemini 3.1 Pro는 57점, Opus 4.6는 53점이다. 4점 차이. "왕좌 탈환" 서사의 근거 중 하나다. 하지만 이 종합 지수에는 가격 대비 성능이 포함돼 있다. Gemini 3.1 Pro의 벤치마크 실행 비용은 약 892달러, Opus 4.6는 1,800달러 이상이다. 비용을 빼고 순수 성능만 보면 격차가 더 좁아지거나 역전될 수 있다.

13승이라는 숫자, Arena에서의 4점, 종합 지수에서의 4점. 이 숫자들은 모두 사실이다. 하지만 사실이라는 것과 의미 있다는 것은 다르다. 통계적 노이즈를 "왕좌"로 포장하는 순간, 데이터는 근거가 아니라 무기가 된다.

벤치마크 셈법의 반복되는 역사

Google만 이런 셈법을 쓰는 것은 아니다. AI 업계 전체가 벤치마크 체리피킹의 만성 환자다.

2023년 12월, Google은 Gemini 1.0 Ultra를 발표하면서 MMLU에서 GPT-4를 처음 넘겼다고 주장했다. MIT Technology Review는 "놀라워 보이지만 AI 과대광고의 정점을 신호할 수 있다"고 평했다. 전문가들은 Google이 사용한 5-shot CoT 프로토콜이 다른 모델에 적용된 프로토콜과 다르다는 점을 지적했다. 같은 시험이라도 풀이 방식을 바꾸면 점수가 달라진다.

Alibaba도 같은 패턴을 보인다. 블로그포스트 목록에 "Qwen 3.5가 GPT 이겼다는 알리바바의 함정"이라는 주제가 대기 중이다. DeepSeek V4도 마찬가지다. "딥시크V4 벤치 90%를 믿으면 안 되는 이유"라는 주제가 존재한다. AI 모델을 만드는 모든 회사가, 자기 모델이 가장 잘하는 시험을 골라서 비교표를 만든다.

벤치마크 비교 화면 — 같은 데이터도 프레임에 따라 전혀 다른 이야기를 만든다

하지만 Google의 경우가 특별한 이유가 있다. 빈도와 규모다. Gemini 1.0 Ultra, 2.5 Pro, 3 Pro, 3.1 Pro. 매번 "최강" 또는 "왕좌 탈환"이 헤드라인을 장식했고, 매번 며칠 후 독립 분석에서 더 복잡한 그림이 드러났다. Gemini 3 Pro는 "프론티어 모델 중 가장 높은 환각률"이라는 평가를 받았다. 3.1 Pro에서 환각률이 88%에서 50%로 개선됐지만, 50%는 여전히 동전 던지기 수준이다.

이 패턴이 반복되는 구조적 이유가 있다. Google에게 AI 벤치마크는 제품 성능 보고서가 아니라 투자자 커뮤니케이션 도구다. Alphabet의 시가총액은 AI 경쟁력에 대한 시장 인식에 직결된다. "16개 중 13승" 같은 숫자는 기술적 맥락을 모르는 투자자에게 강력한 메시지를 전달한다. 숫자의 구성 방식을 따져보는 사람은 SmartScope 같은 독립 분석가뿐이고, 그들의 목소리는 Google의 PR 규모에 묻힌다.

결국 벤치마크 발표는 기술 보고서의 형식을 빌린 마케팅이 된다. "왕좌 탈환"이라는 VentureBeat의 헤드라인은 Google이 만든 비교표를 그대로 받아쓴 결과다. 독립 검증이 나오기까지 며칠이 걸리고, 그 며칠 동안 "13승"이라는 숫자는 이미 투자자와 의사결정자의 인식에 각인된다. 정정 보도는 원래 보도의 도달 범위를 따라잡지 못한다. AI 업계의 벤치마크 발표가 점점 더 언론 이벤트에 가까워지는 이유다.

개발자에게 벤치마크가 알려주지 않는 것

벤치마크 체리피킹이 해로운 진짜 이유는 개발자와 기업의 기술 선택을 왜곡하기 때문이다. "16개 중 13승"을 보고 Gemini를 선택한 기업이, 기획서 작성에서 Claude 대비 300 Elo 격차를 체감하는 순간 신뢰가 무너진다.

실사용 데이터는 벤치마크와 다른 이야기를 한다. Analytics Vidhya의 핸즈온 테스트에 따르면, Gemini 3.1 Pro는 제약 조건이 많은 논리 문제에서 강점을 보인다. 추론 깊이가 이전 세대 대비 확실히 개선됐다. 하지만 장시간 반복적 코딩 세션에서는 Claude Code나 Codex에 뒤처진다는 보고가 여럿 나온다. 한 번에 좋은 답을 내놓는 능력과, 여러 차례에 걸쳐 코드를 점진적으로 개선하는 능력은 다른 근육이다.

출력 토큰 한도도 간과할 수 없다. Gemini 3.1 Pro의 최대 출력은 64K 토큰, Opus 4.6는 128K 토큰이다. 대규모 코드 리팩토링이나 상세한 분석 보고서 작성에서 출력 한도가 절반이라는 건 벤치마크에 안 잡히지만 실무에서는 결정적인 제약이다.

SWE-Bench Verified에서도 비슷한 양상이 나타난다. Gemini 3.1 Pro 80.6%, Opus 4.6 80.8%, Codex 80.0%. 세 모델이 0.8%포인트 안에 몰려 있다. 이 밀도에서 순위를 매기는 건 통계적 노이즈를 해석하는 것에 가깝다. 하지만 Google의 비교표에서는 이 0.2%포인트 차이도 하나의 "승"으로 카운트된다.

가격은 확실히 Gemini의 무기다.

모델	입력 (100만 토큰)	출력 (100만 토큰)	Gemini 대비 비율
Gemini 3.1 Pro	$2	$12	1x
Claude Sonnet 4.6	$3	$15	1.3x
Claude Opus 4.6	$15	$75	6.3x
GPT-5.2	$10	$30	2.5~3x

Opus 4.6의 6분의 1 가격에 대부분의 벤치마크에서 경쟁하거나 앞서는 건 사실이다. 비용 효율성이라는 왕좌에는 Gemini가 분명히 앉아 있다. 하지만 Google이 주장하는 것은 비용 효율성의 왕좌가 아니라 AI 전체의 왕좌다. 가성비 1등과 절대 성능 1등을 구분하지 않는 서사가 문제의 본질이다.

셈법을 읽는 눈이 벤치마크보다 중요하다

"16개 중 13승"이라는 문장에는 세 가지 선택이 숨어 있다. 어떤 16개를 골랐는가. 어떤 조건으로 측정했는가. 누구와 비교했는가. 이 세 가지를 바꾸면 같은 모델로도 "13승"을 만들 수 있고 "5승"을 만들 수도 있다.

Google만의 문제가 아니다. Alibaba의 Qwen, DeepSeek의 V4, 심지어 Anthropic과 OpenAI도 각자의 비교표에서 자기에게 유리한 벤치마크를 전면에 내세운다. 차이가 있다면 정도의 문제다. Google의 경우 부전승을 승리로 계산하고, 조건에 따라 순위가 뒤집히는 벤치마크에서 유리한 조건만 선택하고, 경쟁 모델이 압도하는 벤치마크를 비교표에서 제외하는 세 가지가 동시에 일어났다. 그 결과가 "13승"이다.

개발자와 기업이 해야 할 일은 벤치마크 숫자를 믿는 것도, 불신하는 것도 아니다. 셈법을 읽는 것이다. 몇 개를 이겼느냐가 아니라 어떤 시합을 골랐느냐. 어떤 조건에서 측정했느냐. 빠진 벤치마크에서는 무슨 일이 일어나느냐. 이 질문을 던지면 13승이라는 숫자는 결론이 아니라 출발점이 된다.

AI 모델을 고르는 기준이 벤치마크 승수라면, 가장 교묘하게 벤치마크를 고르는 회사가 이긴다. 그것이 좋은 선택 기준인지는 각자 판단해야 한다.

벤치마크 전쟁의 궁극적인 종착지는 벤치마크가 무의미해지는 시점이다. 사용자가 벤치마크를 확인하지 않아도 될 만큼 제품이 좋아지거나, 벤치마크 점수와 실사용 경험의 괴리가 너무 커서 아무도 벤치마크를 신뢰하지 않게 되거나. 지금은 후자에 더 가까워지고 있다. Google의 "13승"은 그 불신을 가속시킨 숫자 중 하나로 기록될 것이다.

출처: