Published on2026년 2월 28일16개 중 13승이라는 Gemini의 교묘한 셈법gemini제미나이google구글ai-benchmarkAI벤치마크cherry-picking체리피킹ai-modelAI모델Google이 Gemini 3.1 Pro의 16개 벤치마크 중 13승을 주장했지만, SmartScope 분석에 따르면 경쟁 모델이 출전조차 하지 않은 시합이 대부분이었다.
Published on2026년 2월 24일Gemini 3.1이 왕좌 탈환이라는 Google의 착각gemini제미나이google구글ai-benchmarkAI벤치마크claude클로드ai-modelAI모델Google이 Gemini 3.1 Pro를 출시하며 16개 벤치마크 중 13개 1위를 주장했다. 하지만 빠진 벤치마크, 부재한 경쟁자 데이터, 그리고 실무 성능 격차를 들여다보면 왕좌 탈환이라는 서사는 흔들린다.
Published on2026년 2월 21일Sonnet 4.6이 Opus급인데 가격은 1/5라고?anthropic앤트로픽claude클로드sonnet-4-6소네트opus오퍼스ai-modelAI모델ai-pricingAI가격benchmark벤치마크Anthropic이 Sonnet 4.6을 출시했다. SWE-bench 79.6%로 Opus 4.6의 80.8%에 근접하면서 가격은 5분의 1이다. AI 모델 시장의 가격 질서가 흔들린다.
Published on2026년 2월 20일DeepSeek V4 출시설의 진실과 거짓deepseek딥시크deepseek-v4딥시크V4ai-rumorsAI루머fact-check팩트체크ai-modelAI모델engrammoetrillion-parameters1조파라미터DeepSeek V4가 2월 17일 출시된다는 루머가 퍼졌다. 1조 파라미터, SWE-bench 80% 돌파, $0.10 가격 등 화려한 주장들이 난무한다. 무엇이 사실이고 무엇이 거짓인지 검증해본다.