R3崩溃168次!Claude Opus 0.34分 vs Grok 1.22分,守约三轮真实衰减
WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%,168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分,多数模型R1高分后R3崩盘,资源限制与安全合规场景崩溃最集中。
WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%,168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分,多数模型R1高分后R3崩盘,资源限制与安全合规场景崩溃最集中。
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。
GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。
今日Smoke评测中,Claude Opus以89.43分领跑,Grok 4主榜暴跌25.2分执行仅50分;Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险,GPT-o3也崩23.1分,暴露AI稳定性痛点。
Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分,主榜下滑7.1分,诚信评级从pass转为warn。分析显示,这可能是题目波动所致,但结合近期Anthropic动态,模型稳定性成疑,值得警惕。
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
Anthropic推出Claude Opus 4.6,上下文窗口扩至100万token,记忆力提升4倍,并引入多代理协作与智能思考机制。一小时后,OpenAI发布GPT-5.3-codex,基准测试跑分全面领先,点燃AI大模型新一轮军备竞赛