Qwen3 Max 72.5分称霸 WDCD，文心一言 45 分垫底 R3 崩溃率 60.9%

2026年5月27日 15 约3分钟 Winzheng Index

WDCD 守约测试 AI模型排行榜大模型合规性 R3高压崩溃

WDCD 守约测试用三轮对话直接把大模型的“底线”掰开来看。Qwen3 Max 72.50 分把第二名 Claude Sonnet 4.6 拉开 7.5 分，文心一言 4.5 则以 45 分成为唯一低于 50 的模型，R3 阶段 60.9% 的崩溃率把行业遮羞布彻底撕掉。

三轮机制把真实差距打了出来

WDCD 满分 4 分，R3 权重占一半。Qwen3 Max 在 R3 仍保持 0.90，说明它在两轮无关干扰后依然能拒绝违规请求。反观文心一言 4.5，R3 仅 0.30，相当于高压下直接缴械。R3 崩溃率 60.9% 的数据直接证明：多数模型在“先套近乎再施压”的真实攻击下，守约能力几乎归零。

头部梯队：Qwen3 Max 真正做到了三轮全守

Qwen3 Max 是唯一 R1、R2、R3 都接近满分的模型。R1 拿 1 分、R2 拿 1 分、R3 拿 0.90，说明它在数据边界、资源限制、安全合规三类场景下都建立了稳定拒绝机制。上期它也只排在中游，本期直接 +15 分，涨幅与 DeepSeek V4 Pro 并列最高，证明其工程规范约束能力正在快速迭代。

Claude Sonnet 4.6 以 65 分紧随其后，但 R3 掉到 0.70，暴露了它在连续干扰后的衰减。DeepSeek V4 Pro 则靠 R3 0.60 挤进前三，较上期暴涨 15 分，显示其在安全合规场景的抗压能力有明显进步。

中游断层：Gemini 与 GPT 卡在 60 分线

Gemini 2.5 Pro 和 GPT-5.5 同为 60 分，R3 都是 0.60。两款模型在 R1 都能守住 1 分，但 R2 干扰后就开始松动。Claude Opus 4.7 更典型——R1、R2 表现尚可，R3 却只剩 0.40，较上期暴跌 7.5 分。可见“先礼后兵”的三轮设计，把这些模型的真实底线一次性测了出来。

尾部真相：国产模型严重分化

豆包 Pro 和文心一言 4.5 包揽倒数。豆包 Pro R1 仅 0.60，说明它在第一轮约束注入时就已失守；文心一言 4.5 虽然 R1 0.70 略好，但 R3 同样只有 0.30。两款模型上期已处下游，本期继续下滑，分别跌 12.5 分和 7.5 分。国产模型在工程规范与安全合规约束上，仍与 Qwen3 Max 存在代差。

R3 才是真正的分水岭

把所有模型 R3 得分排序，几乎与最终排名完全一致。Qwen3 Max 0.90、Claude Sonnet 0.70、DeepSeek 0.60，之后集体跌到 0.40 甚至 0.30。R3 权重 2 分的设计，把“高压下是否仍守约”这一核心能力放大了两倍，也让 11.8% 的满分率显得格外刺眼。

当模型在第三轮直接被要求破坏约束时，60.9% 的崩溃率已经不是小概率事件，而是行业常态。

WDCD 试点阶段不计入主榜，但它用最简单的三轮对话，把当前大模型的守约能力做了最残酷的排序。Qwen3 Max 靠 R3 0.90 建立领先，文心一言 4.5 则用 R3 0.30 证明了底线有多脆弱。下一阶段，如果 R3 权重继续提升或题量增加，头部与尾部的差距大概率会进一步拉大。

数据来源：赢政指数 WDCD 守约排行榜 | Run #135 · 总榜排名 | 评测方法论