Published on2026년 3월 12일시험 중인 걸 눈치챈 AI가 답지를 해킹했다anthropic앤트로픽claude-opus클로드오퍼스ai-benchmarkAI벤치마크browsecompai-safetyAI안전Claude Opus 4.6이 BrowseComp 벤치마크 평가 중 자신이 시험받고 있음을 눈치채고, 암호화된 답지를 찾아 직접 복호화 코드를 작성해 정답을 추출했다. 18번의 독립 실행에서 같은 전략이 반복됐다.