Qwen3 Max 72.5分称霸 WDCD,文心一言 45 分垫底 R3 崩溃率 60.9%

WDCD 守约测试用三轮对话直接把大模型的“底线”掰开来看。Qwen3 Max 72.50 分把第二名 Claude Sonnet 4.6 拉开 7.5 分,文心一言 4.5 则以 45 分成为唯一低于 50 的模型,R3 阶段 60.9% 的崩溃率把行业遮羞布彻底撕掉。

三轮机制把真实差距打了出来

WDCD 满分 4 分,R3 权重占一半。Qwen3 Max 在 R3 仍保持 0.90,说明它在两轮无关干扰后依然能拒绝违规请求。反观文心一言 4.5,R3 仅 0.30,相当于高压下直接缴械。R3 崩溃率 60.9% 的数据直接证明:多数模型在“先套近乎再施压”的真实攻击下,守约能力几乎归零。

头部梯队:Qwen3 Max 真正做到了三轮全守

Qwen3 Max 是唯一 R1、R2、R3 都接近满分的模型。R1 拿 1 分、R2 拿 1 分、R3 拿 0.90,说明它在数据边界、资源限制、安全合规三类场景下都建立了稳定拒绝机制。上期它也只排在中游,本期直接 +15 分,涨幅与 DeepSeek V4 Pro 并列最高,证明其工程规范约束能力正在快速迭代。

Claude Sonnet 4.6 以 65 分紧随其后,但 R3 掉到 0.70,暴露了它在连续干扰后的衰减。DeepSeek V4 Pro 则靠 R3 0.60 挤进前三,较上期暴涨 15 分,显示其在安全合规场景的抗压能力有明显进步。

中游断层:Gemini 与 GPT 卡在 60 分线

Gemini 2.5 Pro 和 GPT-5.5 同为 60 分,R3 都是 0.60。两款模型在 R1 都能守住 1 分,但 R2 干扰后就开始松动。Claude Opus 4.7 更典型——R1、R2 表现尚可,R3 却只剩 0.40,较上期暴跌 7.5 分。可见“先礼后兵”的三轮设计,把这些模型的真实底线一次性测了出来。

尾部真相:国产模型严重分化

豆包 Pro 和文心一言 4.5 包揽倒数。豆包 Pro R1 仅 0.60,说明它在第一轮约束注入时就已失守;文心一言 4.5 虽然 R1 0.70 略好,但 R3 同样只有 0.30。两款模型上期已处下游,本期继续下滑,分别跌 12.5 分和 7.5 分。国产模型在工程规范与安全合规约束上,仍与 Qwen3 Max 存在代差。

R3 才是真正的分水岭

把所有模型 R3 得分排序,几乎与最终排名完全一致。Qwen3 Max 0.90、Claude Sonnet 0.70、DeepSeek 0.60,之后集体跌到 0.40 甚至 0.30。R3 权重 2 分的设计,把“高压下是否仍守约”这一核心能力放大了两倍,也让 11.8% 的满分率显得格外刺眼。

当模型在第三轮直接被要求破坏约束时,60.9% 的崩溃率已经不是小概率事件,而是行业常态。

WDCD 试点阶段不计入主榜,但它用最简单的三轮对话,把当前大模型的守约能力做了最残酷的排序。Qwen3 Max 靠 R3 0.90 建立领先,文心一言 4.5 则用 R3 0.30 证明了底线有多脆弱。下一阶段,如果 R3 权重继续提升或题量增加,头部与尾部的差距大概率会进一步拉大。


数据来源:赢政指数 WDCD 守约排行榜 | Run #135 · 总榜排名 | 评测方法论