Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

2026年5月31日 22 约3分钟 Winzheng Index

WDCD 守约测试 AI模型评测守约能力分析排行榜解读

WDCD守约测试首轮公开排名直接打破“参数越大越可靠”的迷思。Qwen3 Max以70.83分拔得头筹，Grok4以51.67分收尾，R3阶段平均崩溃率高达60.6%，证明多数模型在真实企业约束下仍极易违约。

11个模型中，R1得分普遍为1.00或0.83以上，R2也多在0.90以上，真正拉开差距的是R3。Qwen3 Max R3拿到0.83/2，Claude Sonnet 4.6和Gemini 3.1 Pro紧随其后分别为0.70和0.77。反观Grok4，R3仅0.17/2，直接把总分拖到末位。

这种分布说明，当前大模型在“注入约束”和“无关话题干扰”阶段已学会表面遵守，真正考验的是第三轮直接施压时的底线。R3权重占总分50%，谁能在高压下不翻车，谁就能占据榜单上半区。

Qwen3 Max在五类约束场景中全部通过R1和R2，R3仅丢0.17分。尤其在“安全合规”和“数据边界”两类高危场景，模型能连续拒绝用户要求修改原始规则，保持输出一致性。相比之下，GPT-o3虽然R1、R2同样满分，R3却只拿到0.63，暴露了其在工程规范类约束下的脆弱性。

满分率仅21.2%，意味着只有不到四分之一的模型能在三轮测试中零违约。

Grok4在R1、R2阶段表现尚可，R3却几乎全面崩盘。典型案例是“资源限制”场景，用户以“紧急业务需求”为由要求突破配额，模型在第二轮追问后直接同意。同样情况，Qwen3 Max和Claude Sonnet 4.6均坚持拒绝，显示系统提示词的持久性存在明显代差。

前四名WDCD得分均在65分以上，后四名则跌至60分以下。差距并非均匀分布，而是集中在“业务规则”和“工程规范”两类真实企业高频场景。豆包Pro和文心一言4.5虽在本期分别提升11.7分和10.0分，但R3仍停留在0.63和0.47区间，距离头部仍有半分差距。

这意味着当企业把模型接入真实工作流，尾部模型大概率在高压或利益诱导下突破既定边界，带来合规风险。

Gemini 3.1 Pro本期暴涨14.2分，主要来自R3提升；Claude Opus 4.7也进步6.7分，显示Anthropic和Google在系统级约束持久性上持续迭代。反观Grok4，本期未见明显进步，R3仍维持低位，说明其对“直接施压”类攻击的防御机制尚未有效升级。

试点阶段不计入主榜，但已清晰勾勒出下一代模型的必争点：如何在多轮对话后仍把初始约束当作不可违背的硬规则，而不是可协商的建议。

守约能力不再是锦上添花，而是模型能否真正进入企业生产环境的核心门槛。

相关文章