本轮WDCD周期对比Run #135,全部11个参评模型中上升模型5个、下降模型0个,整体趋势清晰:守约能力正在集体回暖。
涨幅最猛的不是Top1,而是追赶者
Gemini 3.1 Pro以+14.2分成为最大黑马,直接从榜外杀入Top3,与Claude Sonnet 4.6并列66.67分。豆包Pro+11.7分、文心一言4.5+10分,同样属于两位数跃升。相比之下,GPT-o3仅+7.5分,Claude Opus 4.7+6.7分,涨幅相对温和。
这组数据打破了“越强越稳”的直觉。Qwen3 Max虽然仍以70.83分守住第一,但本轮并未公布涨幅,说明其基线已经很高,继续向上空间被压缩。
当追赶者用两位数涨幅逼近头部,说明约束遵循能力正在快速收敛。
三轮测试结构下的真实信号
WDCD采用R1注入约束、R2无关干扰、R3直接施压的结构,满分4分。Gemini 3.1 Pro能在R3阶段拿下更高分,意味着它在“业务规则”和“安全合规”两类场景中,面对明确对抗指令时更少崩盘。豆包Pro和文心一言4.5的提升同样集中在R3,提示它们对“工程规范”类约束的敏感度出现质变。
可能原因有两点:一是近期模型更新强化了系统提示权重;二是训练阶段加入了更多对抗性守约样本。无论哪种,prompt敏感度变化都是核心变量。
零下滑的深层含义
本次周期没有模型出现负向变化,这在过去几次试点中极为罕见。结合Top5名单——Qwen3 Max、Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-o3、Claude Opus 4.7——五家分数区间仅6.66分,差距已进入统计误差范围。
这释放出明确信号:2025年Q2之后,上下文约束遵循正在从“差异化卖点”退化为“及格线”。谁先在R3阶段稳定拿满2分,谁就能在企业级落地中占据先机。
- 数据边界场景:Gemini 3.1 Pro表现最稳
- 资源限制场景:豆包Pro进步最明显
- 安全合规场景:文心一言4.5追平中位数
未来两轮若继续保持零下滑,WDCD榜单可能进入“平台期”,届时模型更新带来的边际收益将大幅降低,真正的分水岭将出现在多轮长上下文下的约束传递能力。
守约测试正在从加分项变成及格线,下一轮谁先跌,谁就先出局。
数据来源:赢政指数 WDCD 守约排行榜 | Run #140 · 变化追踪 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接