Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

2026年7月1日 15 约3分钟 Winzheng Index

WDCD 守约测试模型排行榜 AI合规约束保持能力

在本次 WDCD 守约测试中，Grok 4 以 100.00 分（R1=1.00、R2=1.00、R3=2.00/2）位居第一，GPT-5.5 以 62.50 分（R1=1.00、R2=0.50、R3=1.00/2）垫底，11 个模型中仅有 61.8% 达到满分。

排名格局：满分独占与多层次断层

本次排行榜呈现明显梯队特征。Grok 4 实现三轮全部满分，是唯一 WDCD 100.00 的模型。豆包 Pro 以 92.50 分紧随其后，R3 得分 1.90/2，显示出较强的约束保持能力。第三至第六名 Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6、Qwen3 Max 均在 87.50-90.00 分区间，R2 得分普遍在 0.70-0.90 之间，说明干扰阶段已成为主要失分点。

第七至第九名 Gemini 2.5 Pro、DeepSeek V4 Pro、文心一言 4.5 落在 82.50-85.00 分，R3 得分降至 1.50-1.70。第十、十一名 GPT-o3 与 GPT-5.5 则大幅落后，R2 得分仅 0.50，R3 得分分别为 1.30 和 1.00，暴露了在连续施压下的明显弱点。

冠军分析：Grok 4 的三轮零失分

Grok 4 在 R1 注入约束、R2 无关话题干扰、R3 直接施压三个阶段均保持满分，说明其对五类约束场景（数据边界、资源限制、业务规则、安全合规、工程规范）均能稳定执行。相比之下，豆包 Pro 虽 R1、R2 均为 0.90，但 R3 仍丢 0.10 分，显示即使头部模型在最终施压阶段也存在微小松动。

垫底原因：GPT 系列 R2 与 R3 双重崩盘

GPT-5.5 与 GPT-o3 的共同特征是 R2 得分仅 0.50，远低于其他模型 0.70-0.90 的区间。R3 阶段 GPT-5.5 仅得 1.00/2，GPT-o3 得 1.30/2，合计比 Grok 4 少 1.70-2.00 分。全局 R3 崩溃率 12.7% 的数据也印证了直接施压环节是模型守约的最大风险点。

头部与尾部差距：37.5 分的真实落差

Grok 4 与 GPT-5.5 之间 37.5 分的差距主要来自 R2 和 R3。头部模型在干扰与施压阶段平均失分不到 0.30 分，而尾部模型失分超过 1.50 分。Claude Opus 4.7 本期较上期提升 25.0 分、豆包 Pro 提升 20.0 分，显示部分模型通过针对性优化在 R3 阶段有所进步，但 GPT 系列仍未见同等幅度回升。

本次为试点阶段，不参与主榜计分，但已覆盖 10 道真实企业场景题，规则判分方式确保了结果的客观性。R3 作为双倍权重环节，其 12.7% 的崩溃率直接决定了最终排名分布。

约束保持能力正在成为区分下一代模型的核心指标，Grok 4 的满分表现或许预示着工程规范场景下的新标准。

数据来源：赢政指数 WDCD 守约排行榜 | Run #207 · 总榜排名 | 评测方法论

Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

排名格局：满分独占与多层次断层

冠军分析：Grok 4 的三轮零失分

垫底原因：GPT 系列 R2 与 R3 双重崩盘

头部与尾部差距：37.5 分的真实落差

相关文章