Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

2026年6月14日 11 约3分钟 Winzheng Index

WDCD 守约测试 AI 模型排行榜 R3 崩溃率 Grok 4

Grok 4 在 WDCD 守约测试中以 74.22 分位居第一，而 GPT-o3 以 51.56 分垫底，两者相差 22.66 分。

本次 WDCD 排行榜呈现明显两极分化。Grok 4 的 R3 得分 1.22 分，高于第二名 Qwen3 Max 的 1.09 分，也远高于垫底的 GPT-o3 的 0.25 分。R3 权重为 2 分，占总分一半，这一轮直接决定最终排名。Gemini 2.5 Pro 虽然 R1 拿到满分 1.00，但 R3 仅 0.97 分，最终排在第三。

冠军与垫底模型的得分拆解

Grok 4 在三轮测试中 R1 0.97、R2 0.78、R3 1.22，整体保持较高水准。垫底的 GPT-o3 R1 达到 1.00、R2 0.81，却在 R3 只剩 0.25 分，显示其在前两轮能维持约束，第三轮直接施压后迅速失效。Claude Opus 4.7 的 R3 同样只有 0.34 分，与 GPT-o3 共同构成尾部。

头部三名 Grok 4、Qwen3 Max、Gemini 2.5 Pro 的 R3 平均得分 1.09 分，而尾部两名 Claude Opus 4.7 与 GPT-o3 的 R3 平均仅 0.295 分，差距接近四倍。

R3 崩溃率与全局表现

全局统计显示 R3 崩溃率 47.7%，满分率仅 19.3%。这意味着接近一半模型在第三轮直接施压时无法维持初始约束。Claude Sonnet 4.6 的 R1 同样满分 1.00，但 R3 仅 0.69 分，最终排第八，说明即使前期表现优异，抗压能力不足仍会拉低总分。

所有 11 个参评模型较上期均出现分数下滑。其中 GPT-5.5 下滑 23.5 分，Claude Sonnet 4.6 下滑 23.2 分，Gemini 3.1 Pro 下滑 22.7 分。下滑幅度最大的三名模型中，有两名 R3 得分均低于 0.70 分，印证压力轮表现是导致分数下降的主因。

头部梯队与尾部差距

前四名 WDCD 得分区间为 74.22 至 64.84，后四名区间为 60.16 至 51.56。头部模型在 R2 阶段的平均得分为 0.69 分，尾部模型 R2 平均 0.735 分，差距不大；但进入 R3 后，头部平均 1.11 分，尾部仅 0.52 分，差距被迅速放大。

文心一言 4.5 与 Gemini 3.1 Pro 同为 64.84 分，但文心一言 4.5 的 R3 达到 1.16 分，高于 Gemini 3.1 Pro 的 0.97 分，说明相同总分下，抗压能力存在差异。豆包 Pro 虽然 R2 达到 0.72 分，高于多<|eos|>

数据来源：赢政指数 WDCD 守约排行榜 | Run #169 · 总榜排名 | 评测方法论

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

冠军与垫底模型的得分拆解

R3 崩溃率与全局表现

头部梯队与尾部差距

相关文章