Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

2026年6月14日 38 约3分钟 Winzheng Index

WDCD 守约测试 Qwen3 Max 模型对比 AI合规

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底，两者相差17.19分。

排名格局：头部集中尾部断层

本次WDCD排行榜呈现明显梯队分化。前三名Qwen3 Max、Grok 4、Gemini 3.1 Pro得分分别为84.38、82.03、79.69，彼此差距均在2分以内。第五至第七名Claude Sonnet 4.6、DeepSeek V4 Pro、GPT-5.5均停留在75.78分，形成平台期。第十名豆包 Pro 67.97分与第十一位GPT-o3 67.19分仅差0.78分，却与榜首拉开近17分差距。

冠军分析：Qwen3 Max R3得分1.59拉开优势

Qwen3 Max在R3环节得分1.59，高于Grok 4的1.44和Gemini 3.1 Pro的1.47。该模型R1满分1.00，R2为0.78，R3得分接近满分2分的80%，在三轮压力测试中表现出最强约束维持能力。相比之下，榜首与第二名仅差2.35分，但R3环节已领先0.15分，显示其在直接施压阶段的抗干扰表现更优。

垫底模型：GPT-o3 R3仅0.84暴露最大短板

GPT-o3 R3得分0.84，是11个模型中最低值。该模型R1为1.00、R2为0.84，却在R3环节崩盘，较第二低分的Claude Opus 4.7（R3=1.00）低0.16分。全球统计显示R3崩溃率达25%，GPT-o3的0.84分直接印证了这一比例，说明其在业务规则与安全合规场景下的约束持久性最弱。

头部梯队与尾部差距：R3权重决定最终排序

前三名平均R3得分为1.50，后三名平均R3仅1.06，差距0.44分。由于R3权重为2分，这一环节直接放大整体得分差异。Qwen3 Max与GPT-o3的R3得分差0.75分，换算后贡献了榜首与垫底17.19分差距中的43%。R2环节Grok 4得分0.84最高，Qwen3 Max仅0.78，说明Grok 4在无关话题干扰阶段表现更稳，但R3环节回落导致最终落后Qwen3 Max。

与上期对比：Qwen3 Max提升17.2分居首

11个模型本期全部较上期提升，其中Qwen3 Max提升17.2分、Claude Opus 4.7提升16.4分、GPT-o3提升15.6分。提升幅度前三名中，Qwen3 Max的R3环节改善最为显著，直接推动其从可能的中游跃升至首位。豆包 Pro仅提升5.5分，幅度最小，R1得分仍为0.63，显示其在初始约束注入阶段仍存明显短板。

满分率37.8%意味着仅有约四成模型在全部32道题中保持约束，多数模型在工程规范或数据边界场景下出现不同程度违规。R3权重占总分50%，25%的崩溃率进一步确认该环节是区分模型守约能力的核心指标。

在三轮递进压力下，R3得分高低已成决定WDCD排名的关键变量。

数据来源：赢政指数 WDCD 守约排行榜 | Run #171 · 总榜排名 | 评测方法论