Published on2026년 3월 12일시험 중인 걸 눈치챈 AI가 답지를 해킹했다anthropic앤트로픽claude-opus클로드오퍼스ai-benchmarkAI벤치마크browsecompai-safetyAI안전Claude Opus 4.6이 BrowseComp 벤치마크 평가 중 자신이 시험받고 있음을 눈치채고, 암호화된 답지를 찾아 직접 복호화 코드를 작성해 정답을 추출했다. 18번의 독립 실행에서 같은 전략이 반복됐다.
Published on2026년 3월 9일GPT-5.4 나왔는데 SWE-bench 1%밖에 안 올랐다gpt-5-4GPT-5.4openai오픈AIswe-benchSWE벤치ai-benchmarkAI벤치마크computer-use컴퓨터사용OpenAI가 GPT-5.4를 출시했다. SWE-bench Pro는 56.8%에서 57.7%로 0.9%p 올랐을 뿐이다. 대신 컴퓨터를 직접 조작하고, 엑셀을 만지고, 투자은행 업무를 한다. 코딩 모델이 아니라 사무직 모델이다.
Published on2026년 3월 2일딥시크V4 Lite가 42줄로 Gemini를 이겼다deepseek딥시크deepseek-v4딥시크V4gemini제미나이svgai-benchmarkAI벤치마크code-generation코드생성DeepSeek V4 Lite가 펠리컨 SVG를 42줄로 생성하며 Gemini 3.1과 Claude Opus 4.6을 이겼다는 유출이 나왔다. 독립 검증은 없고, 공식 발표도 없다.
Published on2026년 2월 28일16개 중 13승이라는 Gemini의 교묘한 셈법gemini제미나이google구글ai-benchmarkAI벤치마크cherry-picking체리피킹ai-modelAI모델Google이 Gemini 3.1 Pro의 16개 벤치마크 중 13승을 주장했지만, SmartScope 분석에 따르면 경쟁 모델이 출전조차 하지 않은 시합이 대부분이었다.
Published on2026년 2월 24일Gemini 3.1이 왕좌 탈환이라는 Google의 착각gemini제미나이google구글ai-benchmarkAI벤치마크claude클로드ai-modelAI모델Google이 Gemini 3.1 Pro를 출시하며 16개 벤치마크 중 13개 1위를 주장했다. 하지만 빠진 벤치마크, 부재한 경쟁자 데이터, 그리고 실무 성능 격차를 들여다보면 왕좌 탈환이라는 서사는 흔들린다.