Claude Opus 相关AI资讯 | 赢政天下 AI

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%，168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分，多数模型R1高分后R3崩盘，资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 189

测评

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 247

测评

Grok 4 98.34 分登顶，Claude Opus 主榜暴跌 31.3 分

今日 Smoke 轻量评测显示，Grok 4 以 98.34 分领跑，代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分，执行分直接腰斩至 38.1，诚信评级从 pass 转为 warn。Qwen3 Max 紧随其

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 270

测评

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

WDCD守约测试显示Claude Opus以65分夺冠，R3阶段崩溃率高达77.3%，DeepSeek V4 Pro较上期暴跌12.5分垫底，头部与尾部差距达17.5分。

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 373

测评

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 277

测评

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 355

测评

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 292

测评

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

2026年5月3日 530

原创

Claude Opus 4.6发布百万token上下文，OpenAI一小时后GPT-5.3-codex强势反超

Anthropic推出Claude Opus 4.6，上下文窗口扩至100万token，记忆力提升4倍，并引入多代理协作与智能思考机制。一小时后，OpenAI发布GPT-5.3-codex，基准测试跑分全面领先，点燃AI大模型新一轮军备竞赛

AI大模型 Claude Opus GPT-5 OpenAI

2026年2月7日 1,348

Claude Opus 相关资讯