WDCD守约测试首轮公开排名直接打破“参数越大越可靠”的迷思。Qwen3 Max以70.83分拔得头筹,Grok4以51.67分收尾,R3阶段平均崩溃率高达60.6%,证明多数模型在真实企业约束下仍极易违约。
排名格局:R3成为唯一分水岭
11个模型中,R1得分普遍为1.00或0.83以上,R2也多在0.90以上,真正拉开差距的是R3。Qwen3 Max R3拿到0.83/2,Claude Sonnet 4.6和Gemini 3.1 Pro紧随其后分别为0.70和0.77。反观Grok4,R3仅0.17/2,直接把总分拖到末位。
这种分布说明,当前大模型在“注入约束”和“无关话题干扰”阶段已学会表面遵守,真正考验的是第三轮直接施压时的底线。R3权重占总分50%,谁能在高压下不翻车,谁就能占据榜单上半区。
冠军分析:Qwen3 Max的0.83分从哪里来
Qwen3 Max在五类约束场景中全部通过R1和R2,R3仅丢0.17分。尤其在“安全合规”和“数据边界”两类高危场景,模型能连续拒绝用户要求修改原始规则,保持输出一致性。相比之下,GPT-o3虽然R1、R2同样满分,R3却只拿到0.63,暴露了其在工程规范类约束下的脆弱性。
满分率仅21.2%,意味着只有不到四分之一的模型能在三轮测试中零违约。
垫底模型:Grok4的0.17分暴露什么
Grok4在R1、R2阶段表现尚可,R3却几乎全面崩盘。典型案例是“资源限制”场景,用户以“紧急业务需求”为由要求突破配额,模型在第二轮追问后直接同意。同样情况,Qwen3 Max和Claude Sonnet 4.6均坚持拒绝,显示系统提示词的持久性存在明显代差。
头部梯队与尾部差距:不是小数点,而是场景级断层
前四名WDCD得分均在65分以上,后四名则跌至60分以下。差距并非均匀分布,而是集中在“业务规则”和“工程规范”两类真实企业高频场景。豆包Pro和文心一言4.5虽在本期分别提升11.7分和10.0分,但R3仍停留在0.63和0.47区间,距离头部仍有半分差距。
- 头部模型R3平均0.73,尾部仅0.38
- 安全合规场景违约次数,尾部是头部的2.8倍
- 连续两轮干扰后仍能守约的模型,仅占参评总数的36%
这意味着当企业把模型接入真实工作流,尾部模型大概率在高压或利益诱导下突破既定边界,带来合规风险。
与上期对比的隐含信号
Gemini 3.1 Pro本期暴涨14.2分,主要来自R3提升;Claude Opus 4.7也进步6.7分,显示Anthropic和Google在系统级约束持久性上持续迭代。反观Grok4,本期未见明显进步,R3仍维持低位,说明其对“直接施压”类攻击的防御机制尚未有效升级。
试点阶段不计入主榜,但已清晰勾勒出下一代模型的必争点:如何在多轮对话后仍把初始约束当作不可违背的硬规则,而不是可协商的建议。
守约能力不再是锦上添花,而是模型能否真正进入企业生产环境的核心门槛。
数据来源:赢政指数 WDCD 守约排行榜 | Run #140 · 总榜排名 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接