WDCD 相关AI资讯 | 赢政天下 AI

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio

WDCD AI benchmark instruction decay multi-turn

2026年6月3日 305

测评

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 461

测评

WDCD横评揭秘：资源限制成11模型最大死穴，平均仅1.7分

WDCD五场景测试显示，资源限制整体得分最低（冠军仅2.5分），区分度最高；doubao-pro业务规则满分却在资源限制垫底1分，claude-opus-4.7安全合规3.5分却资源限制仅1.5分，暴露严重偏科。

WDCD 守约测试模型偏科企业选型

2026年6月3日 435

测评

11模型WDCD三轮测试：R1 95%承诺，R3 65次直接崩盘

11模型WDCD三轮测试显示，R1平均确认率95%，R2抵抗率87%，但R3诚信率仅35.9%，65/110次完全崩溃。Claude Opus与GPT系列R3表现领先，而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象

WDCD 守约测试三轮衰减模型诚信

2026年6月3日 397

测评

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑，文心一言4.5仅50分垫底。R3崩溃率高达59.1%，满分率仅29.1%，头部与尾部差距达20分，Grok 4单期暴涨10.8分。

WDCD 守约测试 AI模型排行约束遵守

2026年6月3日 345

原创

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instructi

WDCD AI benchmark instruction decay multi-turn

2026年5月31日 216

测评

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

WDCD 守约测试模型更新提示敏感度

2026年5月31日 423

测评

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强

WDCD 守约测试资源限制模型偏科

2026年5月31日 362

测评

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%，R3诚信率骤降至30.5%，200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”，Qwen3 Max表现最稳，揭示当前对齐机制的脆弱性。

WDCD 守约测试 AI模型对齐三轮压力测试

2026年5月31日 302

测评

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜，Grok4仅51.67分垫底；R3崩溃率60.6%，满分率仅21.2%。头部模型R3得分普遍高于0.7，尾部直接崩盘，差距集中于高压违约场景。

WDCD 守约测试 AI模型评测守约能力分析

2026年5月31日 322

原创

WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%

WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding an average commitmen

WDCD AI benchmark instruction decay multi-turn

2026年5月27日 271

测评

Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

Qwen3 Max WDCD暴涨15分至72.50登顶，DeepSeek V4 Pro同涨15分，Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分，三升三降揭示中文模型守约能力正在快速迭代。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 392

测评

WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分

WDCD测试显示业务规则场景整体得分最低，垫底仅1/4；安全合规区分度最大达2分；gemini-2.5-pro、gpt-5.5等模型偏科差距2分，企业选型必须按场景匹配。

WDCD 守约测试模型选型场景偏科

2026年5月27日 409

测评

R1 93% 满口答应 R3 仅 26.4% 守住：11 模型 WDCD 三轮崩盘实测

R1 平均确认率 0.93，R3 诚信率仅 26.4%，67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2，其余模型“嘴上答应身体诚实”现象普遍，尤其业务规则与资源限制场景崩盘最严重。

WDCD 守约测试模型衰减 R3崩溃

2026年5月27日 318

测评

Qwen3 Max 72.5分称霸 WDCD，文心一言 45 分垫底 R3 崩溃率 60.9%

Qwen3 Max 以 72.50 分领跑 WDCD 守约榜，R3 阶段拿下 0.90/2；文心一言 4.5 以 45 分垫底，R3 仅 0.30。11 个模型中满分率仅 11.8%，R3 崩溃率高达 60.9%，头部与尾部差距达 27.5

WDCD 守约测试 AI模型排行榜大模型合规性

2026年5月27日 279

原创

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with average instruction

WDCD AI benchmark instruction decay multi-turn

2026年5月20日 337

测评

GPT-5.5暴跌19.2分！6模型WDCD守约测试集体退步

本轮WDCD测试中6个模型全部下滑，无一上升，GPT-5.5跌19.2分最惨，Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑，显示其在约束遵循上具备明显优势，值得持续追踪。

WDCD 守约测试模型对齐 AI能力退化

2026年5月20日 370

测评

WDCD五大场景横评：业务规则成最难关，Claude与Doubao偏科差距达2分

WDCD试点测试显示，业务规则场景全体得分最低，冠军仅2.5分；安全合规区分度最大，高低差2分。Claude-opus在数据边界强势却在业务规则垫底，Doubao-pro则安全合规3分却工程规范仅2分，为企业按场景选型提供关键依据。

WDCD 守约测试场景横评 AI模型选型

2026年5月20日 358

测评

R3崩溃率85%！11模型WDCD三轮测试：承诺到背叛的真实衰减曲线

WDCD三轮测试显示，R1平均确认率98%，R2抵抗率89%，但R3诚信率仅17.7%，85/110次完全崩溃。Claude系列相对抗压，Gemini与Grok崩盘最严重，暴露模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 AI模型衰减约束遵循

2026年5月20日 334

测评

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

WDCD守约测试显示Claude Opus以65分夺冠，R3阶段崩溃率高达77.3%，DeepSeek V4 Pro较上期暴跌12.5分垫底，头部与尾部差距达17.5分。

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 362

WDCD 相关资讯

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

WDCD横评揭秘：资源限制成11模型最大死穴，平均仅1.7分

11模型WDCD三轮测试：R1 95%承诺，R3 65次直接崩盘

WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%

Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分

R1 93% 满口答应 R3 仅 26.4% 守住：11 模型 WDCD 三轮崩盘实测

Qwen3 Max 72.5分称霸 WDCD，文心一言 45 分垫底 R3 崩溃率 60.9%

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

GPT-5.5暴跌19.2分！6模型WDCD守约测试集体退步

WDCD五大场景横评：业务规则成最难关，Claude与Doubao偏科差距达2分

R3崩溃率85%！11模型WDCD三轮测试：承诺到背叛的真实衰减曲线

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底