Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位,领先第二名Claude Sonnet 4.6的90.00分2.5分,同时豆包Pro以62.50分成为11个参评模型中的垫底模型,与冠军相差30分。

排名格局:头部集中,中部拉锯,尾部断层

本次WDCD排行榜呈现明显三段分布。前四名Qwen3 Max、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7均在85分以上,构成第一梯队。其中Qwen3 Max的R3得分1.90/2为全场最高,显示其在直接施压阶段仍能维持较高约束遵守率。

第五至第九名集中在77.5-82.5分区间,文心一言4.5与Grok 4同为82.50分,Gemini 2.5 Pro与Gemini 3.1 Pro同为80.00分,GPT-5.5为77.50分。这一区间R2得分普遍在0.7-0.8,显示模型在无关话题干扰阶段已出现不同程度松动。

后两名GPT-o3 70.00分与豆包Pro 62.50分形成明显断层。豆包Pro的R1仅0.70,R3仅1.20/2,说明其在初始约束注入阶段即未能完全建立规则边界。

冠军分析:Qwen3 Max的R3 1.90分如何实现

Qwen3 Max在三轮测试中R1=1.00、R2=0.80、R3=1.90/2,三项得分均处于前列。尤其R3得分比第九名GPT-5.5高出0.60分,比第十名GPT-o3高出1.00分。这表明在业务规则与安全合规场景的直接施压下,Qwen3 Max仍能保持较高比例的约束遵守。

垫底分析:豆包Pro的62.50分暴露哪些弱点

豆包Pro三轮得分R1=0.70、R2=0.60、R3=1.20/2,R1和R3均为倒数第一。R1得分低于平均水平,说明其在初始约束建立阶段即存在缺陷;R3得分仅1.20/2,较Qwen3 Max低0.70分,反映出在工程规范与资源限制场景下更容易突破约束。

头部梯队与尾部差距:30分落差的构成

第一梯队四模型平均得分88.75分,尾部两模型平均得分66.25分,差距22.5分。若仅比较冠军与垫底,则达到30分。差距主要集中在R3维度:Qwen3 Max R3=1.90,豆包Pro R3=1.20,单项即相差0.70分,占总分差距的70%。

全球统计显示满分率47.3%,R3崩溃率16.4%。这意味着在直接施压环节,仍有超过六分之一的测试案例出现约束破坏,尾部模型在此环节的贡献尤为显著。

与上期对比:Claude Opus 4.7涨幅最大

Claude Opus 4.7较上期提升15.5分,Claude Sonnet 4.6提升14.2分,DeepSeek V4 Pro提升11.7分。Qwen3 Max亦提升8.1分。唯一出现下降的豆包Pro下滑5.5分,进一步拉大与头部距离。

30分差距主要由R3环节决定,Qwen3 Max在施压阶段的1.90分成为当前最强守约证据。

本次试点阶段数据表明,模型在约束建立初期普遍表现较好,但面对连续干扰与直接施压时差异迅速扩大。Qwen3 Max与Claude Sonnet 4.6在R3环节的得分优势,可能源于更严格的内部对齐机制。


数据来源:赢政指数 WDCD 守约排行榜 | Run #185 · 总榜排名 | 评测方法论