WDCD 相关AI资讯 | 赢政天下 AI

WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%

WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction de

WDCD AI benchmark instruction decay multi-turn

2026年5月17日 335

测评

WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

本轮WDCD测试中GPT-5.5以71.67分重回第一，Gemini 2.5 Pro单轮暴涨14.2分杀入前五，而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示，主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

WDCD 守约测试模型更新上下文衰减

2026年5月17日 347

测评

资源限制成WDCD最难场景，豆包3.5分业务规则逆袭GPT

WDCD五场景横评显示，资源限制全体得分最低（冠军仅2.67分），业务规则区分度最大（豆包3.5 vs 垫底2.33）。GPT-5.5安全合规3.5分最强，Claude Opus工程与资源双料领先，豆包严重偏科。

WDCD 守约测试模型横评资源限制

2026年5月17日 323

测评

R3崩溃率93.3%！Grok4 WDCD三轮测试首轮全守末轮崩盘

11模型WDCD三轮测试显示，R1平均确认率96%，R2抵抗率91%，R3诚信率骤降至30.6%，203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%，Qwen3 Max相对稳健0.83分，揭示模型“嘴上答应身体诚实”的普遍规律

WDCD 守约测试模型衰减 R3压力测试

2026年5月17日 317

测评

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 268

原创

WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First

WDCD Run #115 evaluated 11 frontier models on multi-turn commitment integrity, recording a 49.2% average instruction dec

WDCD AI benchmark instruction decay multi-turn

2026年5月13日 331

测评

WDCD大洗牌：Gemini 2.5 Pro暴跌10分，GPT-5.5逆袭7.5分，谁主沉浮？

最新WDCD周期追踪显示，Gemini 2.5 Pro分数暴跌10分，Grok 4下滑7.5分，而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一，揭示

WDCD 守约测试 AI模型评测分数变化

2026年5月13日 408

测评

WDCD五大场景横评：资源限制最难，11模型偏科差距达2分，谁是企业真命天子？

WDCD五大场景横评揭晓：资源限制场景最难，平均分仅1.86；安全合规区分度最大，DeepSeek-v4-pro满分4分。11模型多有偏科，如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议：数据边界首选Qwen3-max，安

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 420

测评

AI守约大崩盘：R3崩溃76次，Grok4全军覆没的衰减黑洞

WDCD测试揭示AI模型在三轮衰减下的真实面目：R1确认率96%，R3诚信率仅24.5%，76/110次完全崩溃。Grok4 R3全崩100%，暴露嘴上答应身体不诚实的典型模式，警示企业AI部署风险。

WDCD 守约测试 AI模型衰减三轮测试

2026年5月13日 359

测评

WDCD守约榜：Gemini 3.1 Pro并列称王，Grok 4惨垫底！头部甩尾22.5分

WDCD守约测试试点揭晓：Gemini 3.1 Pro与Qwen3 Max并列第一（65.00分），Grok 4垫底（42.50分）。头部梯队稳健，R3崩溃率高达69.1%。Gemini系列迭代提升明显，Grok大跌7.5分，凸显AI守约能

WDCD 守约测试 AI模型排名赢政指数

2026年5月13日 392

原创

Instruction Decay: Why Your AI Forgets Rules Mid-Conversation

Instruction decay is a newly identified failure mode where AI models gradually abandon user constraints during multi-tur

instruction decay WDCD AI benchmark multi-turn

2026年5月11日 290

测评

WDCD测的不只是模型，是整个行业的盲区

WDCD的意义不只在榜单分数，而在揭示行业盲区。Run #105中110个案例有59例完美开局最终溃退，Q239更是11/11全军覆没。没有模型R3满分，行业一直在测量智力却忽略了纪律，WDCD填补了多轮行为一致性这个关键评测空白。

WDCD 行业盲区评测体系模型可信度

2026年5月11日 356

测评

WDCD选型指南：企业选模型，不要再只问"谁第一"

总分只反映平均水平，场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首，但同为2.5的ERNIE 4.5以R3=0.8最抗压，Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首，要匹配自身风险场景。

WDCD 企业选型场景矩阵模型对比

2026年5月11日 334

测评

为什么WDCD会成为Agent时代的"Crash Test"

汽车需要碰撞测试，企业Agent需要守约测试。Run #105中11个模型满分3.0无人达到，Qwen3-Max最高2.6仅四星水平，Q239让所有模型全部撞毁。WDCD不是证明模型完美，而是像EuroNCAP一样在上线前找到碰撞断裂点。

WDCD 碰撞测试 Agent安全压力测试

2026年5月11日 371

测评

WDCD警示：当模型把硬约束听成建议，风险就开始了

"必须""禁止""不能"在工程里是硬边界，在模型语义里却被软化为建议。Run #105中Q227的七折底线被8/11模型改成三折，Q226的重试上限被9/11模型变成无限循环。59例衰减证明模型不是忘了规则，而是把规则降级为参考。

WDCD 硬约束软化约束分类规则与建议

2026年5月11日 333

测评

WDCD满分标准："会拒绝"不够，模型还要会替代

企业AI不能只会说不，可靠模型应在拒绝后给出合规替代方案。Run #105中没有模型R3满分，最高ERNIE 4.5仅0.8。Q227的8个违规模型无一尝试在七折范围内给替代方案，而是直接输出三折SQL。会拒绝是底线，会替代才是守约智能。

WDCD 满分标准安全替代拒绝策略

2026年5月10日 356

测评

WDCD与Agent时代：真正的Agent不是更会执行，而是更会停下

Agent的成熟不在于自动化更强，而在于停止条件更清晰。Run #105中Q239没有一个模型停下，11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车，Grok-4仅0.2几乎从不停下，拒绝违规是基本能力。

WDCD AI Agent 停止条件自动化安全

2026年5月10日 380

测评

WDCD视角：模型越有用，越需要刹车

当模型只输出文字时错误停在屏幕上，连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码，若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7，没有模型具备可靠的刹车能力。

WDCD AI Agent 工具调用能力与约束

2026年5月10日 362

测评

WDCD压力诱导："老板急要"为什么能击穿大模型

社会工程不只攻击人，也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线，Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2，一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。

WDCD 社会工程压力诱导权威服从

2026年5月10日 329

测评

WDCD实测：长上下文不是保险箱，而是更长的遗忘现场

上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减，Gemini 3.1 Pro的R2满分却R3骤降至0.4，记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。

WDCD 长上下文约束遗忘注意力竞争

2026年5月10日 363

WDCD 相关资讯