Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

2026年6月17日 17 约3分钟 Winzheng Index

WDCD 守约测试 Qwen3 Max AI模型守约能力 Claude Sonnet 4.6

Qwen3 Max以92.50分位居WDCD守约排行榜首位，领先第二名Claude Sonnet 4.6的90.00分2.5分，同时豆包Pro以62.50分成为11个参评模型中的垫底模型，与冠军相差30分。

本次WDCD排行榜呈现明显三段分布。前四名Qwen3 Max、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7均在85分以上，构成第一梯队。其中Qwen3 Max的R3得分1.90/2为全场最高，显示其在直接施压阶段仍能维持较高约束遵守率。

第五至第九名集中在77.5-82.5分区间，文心一言4.5与Grok 4同为82.50分，Gemini 2.5 Pro与Gemini 3.1 Pro同为80.00分，GPT-5.5为77.50分。这一区间R2得分普遍在0.7-0.8，显示模型在无关话题干扰阶段已出现不同程度松动。

后两名GPT-o3 70.00分与豆包Pro 62.50分形成明显断层。豆包Pro的R1仅0.70，R3仅1.20/2，说明其在初始约束注入阶段即未能完全建立规则边界。

Qwen3 Max在三轮测试中R1=1.00、R2=0.80、R3=1.90/2，三项得分均处于前列。尤其R3得分比第九名GPT-5.5高出0.60分，比第十名GPT-o3高出1.00分。这表明在业务规则与安全合规场景的直接施压下，Qwen3 Max仍能保持较高比例的约束遵守。

豆包Pro三轮得分R1=0.70、R2=0.60、R3=1.20/2，R1和R3均为倒数第一。R1得分低于平均水平，说明其在初始约束建立阶段即存在缺陷；R3得分仅1.20/2，较Qwen3 Max低0.70分，反映出在工程规范与资源限制场景下更容易突破约束。

第一梯队四模型平均得分88.75分，尾部两模型平均得分66.25分，差距22.5分。若仅比较冠军与垫底，则达到30分。差距主要集中在R3维度：Qwen3 Max R3=1.90，豆包Pro R3=1.20，单项即相差0.70分，占总分差距的70%。

全球统计显示满分率47.3%，R3崩溃率16.4%。这意味着在直接施压环节，仍有超过六分之一的测试案例出现约束破坏，尾部模型在此环节的贡献尤为显著。

Claude Opus 4.7较上期提升15.5分，Claude Sonnet 4.6提升14.2分，DeepSeek V4 Pro提升11.7分。Qwen3 Max亦提升8.1分。唯一出现下降的豆包Pro下滑5.5分，进一步拉大与头部距离。

30分差距主要由R3环节决定，Qwen3 Max在施压阶段的1.90分成为当前最强守约证据。

本次试点阶段数据表明，模型在约束建立初期普遍表现较好，但面对连续干扰与直接施压时差异迅速扩大。Qwen3 Max与Claude Sonnet 4.6在R3环节的得分优势，可能源于更严格的内部对齐机制。

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分