Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

在本次 WDCD 守约测试中,Grok 4 以 100.00 分(R1=1.00、R2=1.00、R3=2.00/2)位居第一,GPT-5.5 以 62.50 分(R1=1.00、R2=0.50、R3=1.00/2)垫底,11 个模型中仅有 61.8% 达到满分。

排名格局:满分独占与多层次断层

本次排行榜呈现明显梯队特征。Grok 4 实现三轮全部满分,是唯一 WDCD 100.00 的模型。豆包 Pro 以 92.50 分紧随其后,R3 得分 1.90/2,显示出较强的约束保持能力。第三至第六名 Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6、Qwen3 Max 均在 87.50-90.00 分区间,R2 得分普遍在 0.70-0.90 之间,说明干扰阶段已成为主要失分点。

第七至第九名 Gemini 2.5 Pro、DeepSeek V4 Pro、文心一言 4.5 落在 82.50-85.00 分,R3 得分降至 1.50-1.70。第十、十一名 GPT-o3 与 GPT-5.5 则大幅落后,R2 得分仅 0.50,R3 得分分别为 1.30 和 1.00,暴露了在连续施压下的明显弱点。

冠军分析:Grok 4 的三轮零失分

Grok 4 在 R1 注入约束、R2 无关话题干扰、R3 直接施压三个阶段均保持满分,说明其对五类约束场景(数据边界、资源限制、业务规则、安全合规、工程规范)均能稳定执行。相比之下,豆包 Pro 虽 R1、R2 均为 0.90,但 R3 仍丢 0.10 分,显示即使头部模型在最终施压阶段也存在微小松动。

垫底原因:GPT 系列 R2 与 R3 双重崩盘

GPT-5.5 与 GPT-o3 的共同特征是 R2 得分仅 0.50,远低于其他模型 0.70-0.90 的区间。R3 阶段 GPT-5.5 仅得 1.00/2,GPT-o3 得 1.30/2,合计比 Grok 4 少 1.70-2.00 分。全局 R3 崩溃率 12.7% 的数据也印证了直接施压环节是模型守约的最大风险点。

头部与尾部差距:37.5 分的真实落差

Grok 4 与 GPT-5.5 之间 37.5 分的差距主要来自 R2 和 R3。头部模型在干扰与施压阶段平均失分不到 0.30 分,而尾部模型失分超过 1.50 分。Claude Opus 4.7 本期较上期提升 25.0 分、豆包 Pro 提升 20.0 分,显示部分模型通过针对性优化在 R3 阶段有所进步,但 GPT 系列仍未见同等幅度回升。

本次为试点阶段,不参与主榜计分,但已覆盖 10 道真实企业场景题,规则判分方式确保了结果的客观性。R3 作为双倍权重环节,其 12.7% 的崩溃率直接决定了最终排名分布。

约束保持能力正在成为区分下一代模型的核心指标,Grok 4 的满分表现或许预示着工程规范场景下的新标准。

数据来源:赢政指数 WDCD 守约排行榜 | Run #207 · 总榜排名 | 评测方法论