330次施压实验:63%的大模型在第三轮叛变了
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
Anthropic的Claude Opus 4.6和OpenAI的Frontier模型正推动AI从简单聊天转向代理管理时代。AI企业希望用户不再被动对话,而是主动监督多代理系统,实现复杂任务自动化。这标志着AI应用从消费级聊天工具向企业级生
Anthropic推出Claude Opus 4.6,上下文窗口扩至100万token,记忆力提升4倍,并引入多代理协作与智能思考机制。一小时后,OpenAI发布GPT-5.3-codex,基准测试跑分全面领先,点燃AI大模型新一轮军备竞赛