Gemini 3.1 Pro 93.57分 WDCD守约第一文心一言4.5仅75.71分垫底

2026年6月28日 36 约3分钟 Winzheng Index

WDCD 守约测试排行榜分析 Gemini 3.1 Pro 文心一言

Gemini 3.1 Pro 以 WDCD 93.57 分（R1=1.00、R2=0.97、R3=1.77/2）位居本次 WDCD 守约排行榜首位，文心一言 4.5 以 75.71 分（R1=0.89、R2=0.60、R3=1.54/2）位居第 11 名。

排名格局：头部集中尾部断层

本次 WDCD 排行榜呈现明显梯队分化。前三名 Gemini 3.1 Pro（93.57）、Grok 4（92.86）、Claude Opus 4.7（89.29）得分差距均在 1-3 分之间，而第 7 名豆包 Pro（81.43）与第 11 名文心一言 4.5（75.71）之间拉开 5.72 分差距。全局满分率仅 59.2%，R3 崩溃率 8.8%，说明多数模型在第三轮直接施压时出现不同程度约束违反。

冠军分析：Gemini 3.1 Pro R2 R3 双高

Gemini 3.1 Pro 的优势体现在 R2 干扰抵抗与 R3 施压耐受两项。R2 得分 0.97，高于 Grok 4 的 0.89 与 Claude Opus 4.7 的 0.89；R3 得分 1.77，与 DeepSeek V4 Pro 并列最高。两项数据共同构成其 93.57 分领先基础。相比之下，Grok 4 虽 R3 达到 1.83 的单项最高，但 R2 仅 0.89，导致总分落后 0.71 分。

垫底分析：文心一言 4.5 R1 R2 双低

文心一言 4.5 的 R1 得分 0.89、R2 得分 0.60 均为 11 个模型最低，直接导致其总分垫底。R3 得分 1.54 虽高于 GPT-o3 的 1.34，但前期两轮累计损失 0.51 分，已无法通过 R3 追回。R2 0.60 的表现显示该模型在无关话题干扰阶段最易偏离初始约束。

头部梯队与尾部差距：R3 成为决定性变量

前六名 R3 平均得分 1.72，后五名 R3 平均得分仅 1.50。Claude Opus 4.7 与 DeepSeek V4 Pro 同为 89.29 分，但前者 R2 0.89 高于后者 0.83，显示 R2 微小差异即可决定并列排名。GPT-5.5（81.43）R1 满分 1.00，却因 R2 仅 0.66 而跌至第 8，印证 R2 干扰阶段对总排名的放大效应。

与上期对比显示，Claude Opus 4.7 提升 19.8 分、Gemini 2.5 Pro 提升 16.0 分，均主要来自 R3 得分回升。GPT-5.5 仅提升 5.7 分，在 11 个模型中增幅最小，R2 得分仍停留在 0.66 的较低水平。

WDCD 守约测试中，R3 施压阶段的得分差异直接决定了 0.71-5.72 分的最终排名跨度。

本次试点阶段 35 道题覆盖五类约束场景，数据表明工程规范与安全合规场景下模型 R3 崩溃更为集中。Gemini 3.1 Pro 在两类场景均保持 R3 1.80 以上，而文心一言 4.5 在同一场景 R3 跌至 1.40 以下。

整体格局显示，R1 约束注入通过率已普遍较高，但 R2 干扰与 R3 施压仍是当前模型的主要短板。Gemini 3.1 Pro 与 Grok 4 的 R3 得分超过 1.77，构成当前可观测的守约能力上限。

未来迭代若 R3 崩溃率持续维持在 8.8% 附近，头部模型与尾部模型的得分差距可能进一步扩大。

数据来源：赢政指数 WDCD 守约排行榜 | Run #202 · 总榜排名 | 评测方法论

Gemini 3.1 Pro 93.57分 WDCD守约第一 文心一言4.5仅75.71分垫底

排名格局：头部集中 尾部断层

冠军分析：Gemini 3.1 Pro R2 R3 双高

垫底分析：文心一言 4.5 R1 R2 双低

头部梯队与尾部差距：R3 成为决定性变量

相关文章

Gemini 3.1 Pro 93.57分 WDCD守约第一文心一言4.5仅75.71分垫底

排名格局：头部集中尾部断层