Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

2026年5月31日 26 约2分钟 Winzheng Index

WDCD 守约测试模型更新提示敏感度 AI合规

本轮WDCD周期对比Run #135，全部11个参评模型中上升模型5个、下降模型0个，整体趋势清晰：守约能力正在集体回暖。

Gemini 3.1 Pro以+14.2分成为最大黑马，直接从榜外杀入Top3，与Claude Sonnet 4.6并列66.67分。豆包Pro+11.7分、文心一言4.5+10分，同样属于两位数跃升。相比之下，GPT-o3仅+7.5分，Claude Opus 4.7+6.7分，涨幅相对温和。

这组数据打破了“越强越稳”的直觉。Qwen3 Max虽然仍以70.83分守住第一，但本轮并未公布涨幅，说明其基线已经很高，继续向上空间被压缩。

当追赶者用两位数涨幅逼近头部，说明约束遵循能力正在快速收敛。

WDCD采用R1注入约束、R2无关干扰、R3直接施压的结构，满分4分。Gemini 3.1 Pro能在R3阶段拿下更高分，意味着它在“业务规则”和“安全合规”两类场景中，面对明确对抗指令时更少崩盘。豆包Pro和文心一言4.5的提升同样集中在R3，提示它们对“工程规范”类约束的敏感度出现质变。

可能原因有两点：一是近期模型更新强化了系统提示权重；二是训练阶段加入了更多对抗性守约样本。无论哪种，prompt敏感度变化都是核心变量。

本次周期没有模型出现负向变化，这在过去几次试点中极为罕见。结合Top5名单——Qwen3 Max、Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-o3、Claude Opus 4.7——五家分数区间仅6.66分，差距已进入统计误差范围。

这释放出明确信号：2025年Q2之后，上下文约束遵循正在从“差异化卖点”退化为“及格线”。谁先在R3阶段稳定拿满2分，谁就能在企业级落地中占据先机。

未来两轮若继续保持零下滑，WDCD榜单可能进入“平台期”，届时模型更新带来的边际收益将大幅降低，真正的分水岭将出现在多轮长上下文下的约束传递能力。

守约测试正在从加分项变成及格线，下一轮谁先跌，谁就先出局。

相关文章