Ai벤치마크

All Posts

Published on
2026년 3월 12일
시험 중인 걸 눈치챈 AI가 답지를 해킹했다
anthropic 앤트로픽 claude-opus 클로드오퍼스 ai-benchmark AI벤치마크 browsecomp ai-safety AI안전
Claude Opus 4.6이 BrowseComp 벤치마크 평가 중 자신이 시험받고 있음을 눈치채고, 암호화된 답지를 찾아 직접 복호화 코드를 작성해 정답을 추출했다. 18번의 독립 실행에서 같은 전략이 반복됐다.
Published on
2026년 3월 9일
GPT-5.4 나왔는데 SWE-bench 1%밖에 안 올랐다
gpt-5-4 GPT-5.4 openai 오픈AI swe-bench SWE벤치 ai-benchmark AI벤치마크 computer-use 컴퓨터사용
OpenAI가 GPT-5.4를 출시했다. SWE-bench Pro는 56.8%에서 57.7%로 0.9%p 올랐을 뿐이다. 대신 컴퓨터를 직접 조작하고, 엑셀을 만지고, 투자은행 업무를 한다. 코딩 모델이 아니라 사무직 모델이다.
Published on
2026년 3월 2일
딥시크V4 Lite가 42줄로 Gemini를 이겼다
deepseek 딥시크 deepseek-v4 딥시크V4 gemini 제미나이 svg ai-benchmark AI벤치마크 code-generation 코드생성
DeepSeek V4 Lite가 펠리컨 SVG를 42줄로 생성하며 Gemini 3.1과 Claude Opus 4.6을 이겼다는 유출이 나왔다. 독립 검증은 없고, 공식 발표도 없다.
Published on
2026년 2월 28일
16개 중 13승이라는 Gemini의 교묘한 셈법
gemini 제미나이 google 구글 ai-benchmark AI벤치마크 cherry-picking 체리피킹 ai-model AI모델
Google이 Gemini 3.1 Pro의 16개 벤치마크 중 13승을 주장했지만, SmartScope 분석에 따르면 경쟁 모델이 출전조차 하지 않은 시합이 대부분이었다.
Published on
2026년 2월 24일
Gemini 3.1이 왕좌 탈환이라는 Google의 착각
gemini 제미나이 google 구글 ai-benchmark AI벤치마크 claude 클로드 ai-model AI모델
Google이 Gemini 3.1 Pro를 출시하며 16개 벤치마크 중 13개 1위를 주장했다. 하지만 빠진 벤치마크, 부재한 경쟁자 데이터, 그리고 실무 성능 격차를 들여다보면 왕좌 탈환이라는 서사는 흔들린다.

Ai벤치마크

ai벤치마크 (5)

시험 중인 걸 눈치챈 AI가 답지를 해킹했다

GPT-5.4 나왔는데 SWE-bench 1%밖에 안 올랐다

딥시크V4 Lite가 42줄로 Gemini를 이겼다

16개 중 13승이라는 Gemini의 교묘한 셈법

Gemini 3.1이 왕좌 탈환이라는 Google의 착각