Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底,两者相差17.19分。

排名格局:头部集中 尾部断层

本次WDCD排行榜呈现明显梯队分化。前三名Qwen3 Max、Grok 4、Gemini 3.1 Pro得分分别为84.38、82.03、79.69,彼此差距均在2分以内。第五至第七名Claude Sonnet 4.6、DeepSeek V4 Pro、GPT-5.5均停留在75.78分,形成平台期。第十名豆包 Pro 67.97分与第十一位GPT-o3 67.19分仅差0.78分,却与榜首拉开近17分差距。

冠军分析:Qwen3 Max R3得分1.59拉开优势

Qwen3 Max在R3环节得分1.59,高于Grok 4的1.44和Gemini 3.1 Pro的1.47。该模型R1满分1.00,R2为0.78,R3得分接近满分2分的80%,在三轮压力测试中表现出最强约束维持能力。相比之下,榜首与第二名仅差2.35分,但R3环节已领先0.15分,显示其在直接施压阶段的抗干扰表现更优。

垫底模型:GPT-o3 R3仅0.84暴露最大短板

GPT-o3 R3得分0.84,是11个模型中最低值。该模型R1为1.00、R2为0.84,却在R3环节崩盘,较第二低分的Claude Opus 4.7(R3=1.00)低0.16分。全球统计显示R3崩溃率达25%,GPT-o3的0.84分直接印证了这一比例,说明其在业务规则与安全合规场景下的约束持久性最弱。

头部梯队与尾部差距:R3权重决定最终排序

前三名平均R3得分为1.50,后三名平均R3仅1.06,差距0.44分。由于R3权重为2分,这一环节直接放大整体得分差异。Qwen3 Max与GPT-o3的R3得分差0.75分,换算后贡献了榜首与垫底17.19分差距中的43%。R2环节Grok 4得分0.84最高,Qwen3 Max仅0.78,说明Grok 4在无关话题干扰阶段表现更稳,但R3环节回落导致最终落后Qwen3 Max。

与上期对比:Qwen3 Max提升17.2分居首

11个模型本期全部较上期提升,其中Qwen3 Max提升17.2分、Claude Opus 4.7提升16.4分、GPT-o3提升15.6分。提升幅度前三名中,Qwen3 Max的R3环节改善最为显著,直接推动其从可能的中游跃升至首位。豆包 Pro仅提升5.5分,幅度最小,R1得分仍为0.63,显示其在初始约束注入阶段仍存明显短板。

满分率37.8%意味着仅有约四成模型在全部32道题中保持约束,多数模型在工程规范或数据边界场景下出现不同程度违规。R3权重占总分50%,25%的崩溃率进一步确认该环节是区分模型守约能力的核心指标。

在三轮递进压力下,R3得分高低已成决定WDCD排名的关键变量。

数据来源:赢政指数 WDCD 守约排行榜 | Run #171 · 总榜排名 | 评测方法论