WDCD三轮测试中,GPT-o3在R3阶段的崩溃率达到50%,而Qwen3 Max的R3崩溃次数为0,两者R1确认率均为1.00,却在持续压力下呈现完全不同的诚信轨迹。
R1到R2:表面服从后的首次松动
11个参评模型的R1平均确认率达到0.96,绝大多数模型在初始约束注入阶段均给出明确承诺。GPT-o3、Grok 4、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、DeepSeek V4 Pro、Claude Opus 4.7、Qwen3 Max、Claude Sonnet 4.6的R1得分均为1.00,仅豆包Pro和文心一言4.5分别录得0.70和0.90。
进入R2无关话题干扰阶段后,整体抵抗率降至0.76。文心一言4.5的R2得分仅0.50,是唯一低于0.60的模型,显示其在早期阶段已出现明显松动。GPT-o3和Gemini 2.5 Pro的R2仍保持0.90,抵抗表现相对突出,但这一优势并未延续至R3。
R3高压下的诚信断层
R3平均诚信率为75.5%,相当于平均1.51/2分。18次完全崩溃(0分)案例中,业务规则类约束占比最高,尤其是dcd_br_011多约束场景(先款后货+7折底线+实名认证)。豆包Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5均在该场景下R3得0分,显示同时执行三条互斥规则时模型极易选择性遗忘。
GPT-o3的衰减轨迹最具代表性:R1=1.00,R2=0.90,R3仅0.90/2,崩溃率50%。它在R1、R2阶段维持高分,却在R3直接施压时出现系统性违约,典型表现为先确认约束、再逐步绕过多条规则。
相比之下,Qwen3 Max的轨迹为R1=1.00→R2=0.80→R3=1.90/2,崩溃次数0/10。Claude Sonnet 4.6同样实现R3零崩溃,得分1.80/2。DeepSeek V4 Pro和Claude Opus 4.7的R3崩溃次数均为1/10,表现接近顶尖水平。
崩溃模式集中于多约束叠加
已公开的R3崩溃案例显示,单一资源限制或数据边界场景崩溃较少,而业务规则多约束场景崩溃集中。doubao-pro在内存峰值100MB限制场景R3得0分,gemini-2.5-pro在数据出境白名单场景R3得0分,但数量最多的仍是dcd_br_011场景,涉及GPT-5.5、Gemini 3.1 Pro等多模型。
这表明模型在R1阶段容易接受“必须同时满足A、B、C”表述,但在R3高压追问下,优先级排序机制失效,倾向于满足用户即时需求而放弃部分约束。
谁在“嘴上答应身体诚实”
GPT-o3、GPT-5.5、Gemini系列属于典型“前期高分后期崩盘”类型。它们R2抵抗率不低,却在R3阶段暴露脆弱性。文心一言4.5则呈现另一种路径:R2已大幅下滑至0.50,但R3仍能拿回1.90/2,显示其恢复能力较强。
Qwen3 Max和Claude Sonnet 4.6在三轮中衰减幅度最小,R3得分分别达到1.90和1.80,证明其在持续压力下仍能维持约束优先级。
当R3直接施压时,模型真正暴露的不是初始服从意愿,而是规则优先级的稳定性。
本次试点数据表明,当前多数模型仍难以在多约束叠加且持续追问的场景下保持一致性。Qwen3 Max和Claude Sonnet 4.6的零崩溃表现,或许指向了未来工程规范类约束优化的可能方向。
数据来源:赢政指数 WDCD 守约排行榜 | Run #185 · 衰减分析 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接