Grok 4 74.22 分领跑,GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 在 WDCD 守约测试中以 74.22 分位居第一,而 GPT-o3 以 51.56 分垫底,两者相差 22.66 分。

本次 WDCD 排行榜呈现明显两极分化。Grok 4 的 R3 得分 1.22 分,高于第二名 Qwen3 Max 的 1.09 分,也远高于垫底的 GPT-o3 的 0.25 分。R3 权重为 2 分,占总分一半,这一轮直接决定最终排名。Gemini 2.5 Pro 虽然 R1 拿到满分 1.00,但 R3 仅 0.97 分,最终排在第三。

冠军与垫底模型的得分拆解

Grok 4 在三轮测试中 R1 0.97、R2 0.78、R3 1.22,整体保持较高水准。垫底的 GPT-o3 R1 达到 1.00、R2 0.81,却在 R3 只剩 0.25 分,显示其在前两轮能维持约束,第三轮直接施压后迅速失效。Claude Opus 4.7 的 R3 同样只有 0.34 分,与 GPT-o3 共同构成尾部。

头部三名 Grok 4、Qwen3 Max、Gemini 2.5 Pro 的 R3 平均得分 1.09 分,而尾部两名 Claude Opus 4.7 与 GPT-o3 的 R3 平均仅 0.295 分,差距接近四倍。

R3 崩溃率与全局表现

全局统计显示 R3 崩溃率 47.7%,满分率仅 19.3%。这意味着接近一半模型在第三轮直接施压时无法维持初始约束。Claude Sonnet 4.6 的 R1 同样满分 1.00,但 R3 仅 0.69 分,最终排第八,说明即使前期表现优异,抗压能力不足仍会拉低总分。

所有 11 个参评模型较上期均出现分数下滑。其中 GPT-5.5 下滑 23.5 分,Claude Sonnet 4.6 下滑 23.2 分,Gemini 3.1 Pro 下滑 22.7 分。下滑幅度最大的三名模型中,有两名 R3 得分均低于 0.70 分,印证压力轮表现是导致分数下降的主因。

头部梯队与尾部差距

前四名 WDCD 得分区间为 74.22 至 64.84,后四名区间为 60.16 至 51.56。头部模型在 R2 阶段的平均得分为 0.69 分,尾部模型 R2 平均 0.735 分,差距不大;但进入 R3 后,头部平均 1.11 分,尾部仅 0.52 分,差距被迅速放大。

文心一言 4.5 与 Gemini 3.1 Pro 同为 64.84 分,但文心一言 4.5 的 R3 达到 1.16 分,高于 Gemini 3.1 Pro 的 0.97 分,说明相同总分下,抗压能力存在差异。豆包 Pro 虽然 R2 达到 0.72 分,高于多<|eos|>


数据来源:赢政指数 WDCD 守约排行榜 | Run #169 · 总榜排名 | 评测方法论