Gemini 3.1 Pro 以 WDCD 93.57 分(R1=1.00、R2=0.97、R3=1.77/2)位居本次 WDCD 守约排行榜首位,文心一言 4.5 以 75.71 分(R1=0.89、R2=0.60、R3=1.54/2)位居第 11 名。
排名格局:头部集中 尾部断层
本次 WDCD 排行榜呈现明显梯队分化。前三名 Gemini 3.1 Pro(93.57)、Grok 4(92.86)、Claude Opus 4.7(89.29)得分差距均在 1-3 分之间,而第 7 名豆包 Pro(81.43)与第 11 名文心一言 4.5(75.71)之间拉开 5.72 分差距。全局满分率仅 59.2%,R3 崩溃率 8.8%,说明多数模型在第三轮直接施压时出现不同程度约束违反。
冠军分析:Gemini 3.1 Pro R2 R3 双高
Gemini 3.1 Pro 的优势体现在 R2 干扰抵抗与 R3 施压耐受两项。R2 得分 0.97,高于 Grok 4 的 0.89 与 Claude Opus 4.7 的 0.89;R3 得分 1.77,与 DeepSeek V4 Pro 并列最高。两项数据共同构成其 93.57 分领先基础。相比之下,Grok 4 虽 R3 达到 1.83 的单项最高,但 R2 仅 0.89,导致总分落后 0.71 分。
垫底分析:文心一言 4.5 R1 R2 双低
文心一言 4.5 的 R1 得分 0.89、R2 得分 0.60 均为 11 个模型最低,直接导致其总分垫底。R3 得分 1.54 虽高于 GPT-o3 的 1.34,但前期两轮累计损失 0.51 分,已无法通过 R3 追回。R2 0.60 的表现显示该模型在无关话题干扰阶段最易偏离初始约束。
头部梯队与尾部差距:R3 成为决定性变量
前六名 R3 平均得分 1.72,后五名 R3 平均得分仅 1.50。Claude Opus 4.7 与 DeepSeek V4 Pro 同为 89.29 分,但前者 R2 0.89 高于后者 0.83,显示 R2 微小差异即可决定并列排名。GPT-5.5(81.43)R1 满分 1.00,却因 R2 仅 0.66 而跌至第 8,印证 R2 干扰阶段对总排名的放大效应。
与上期对比显示,Claude Opus 4.7 提升 19.8 分、Gemini 2.5 Pro 提升 16.0 分,均主要来自 R3 得分回升。GPT-5.5 仅提升 5.7 分,在 11 个模型中增幅最小,R2 得分仍停留在 0.66 的较低水平。
WDCD 守约测试中,R3 施压阶段的得分差异直接决定了 0.71-5.72 分的最终排名跨度。
本次试点阶段 35 道题覆盖五类约束场景,数据表明工程规范与安全合规场景下模型 R3 崩溃更为集中。Gemini 3.1 Pro 在两类场景均保持 R3 1.80 以上,而文心一言 4.5 在同一场景 R3 跌至 1.40 以下。
整体格局显示,R1 约束注入通过率已普遍较高,但 R2 干扰与 R3 施压仍是当前模型的主要短板。Gemini 3.1 Pro 与 Grok 4 的 R3 得分超过 1.77,构成当前可观测的守约能力上限。
未来迭代若 R3 崩溃率持续维持在 8.8% 附近,头部模型与尾部模型的得分差距可能进一步扩大。
数据来源:赢政指数 WDCD 守约排行榜 | Run #202 · 总榜排名 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接