WDCD 相关AI资讯 | 赢政天下 AI

WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points

WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average instruction decay of -5

WDCD AI benchmark instruction decay multi-turn

4天前 185

测评

WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示，R1平均确认率0.96，R2抵抗率降至0.76，R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%，而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃，暴露多约束场景下的诚信断

WDCD 守约测试模型衰减业务规则约束

4天前 190

测评

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o

WDCD 守约测试 Qwen3 Max AI模型守约能力

4天前 165

原创

WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an average instruction de

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 194

测评

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底。榜首与榜尾相差17.19分，R3崩溃率达25%，满分率仅37.8%。Qwen3 Max R3得分1.59领先，GPT-o3 R3仅0.84，显示三轮

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 339

原创

WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%

WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 topping the leaderboar

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 155

测评

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%，168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分，多数模型R1高分后R3崩盘，资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 181

测评

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位，GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%，满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑，头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 137

原创

Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure

In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time, but only 68.3% still

instruction decay WDCD LLM benchmark multi-turn dialogue

2026年6月12日 220

原创

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 248

测评

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude Sonnet仅6.7%，揭示持续压力下的真实行为模式。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 337

测评

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老版本表现剧烈分化。

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 312

原创

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 346

测评

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 406

测评

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 353

原创

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.

WDCD AI benchmark instruction decay multi-turn

2026年6月10日 236

测评

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

WDCD 守约测试模型更新指令遵循

2026年6月10日 337

测评

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

WDCD 守约测试模型选型资源限制

2026年6月10日 264

测评

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示，R1 确认率 95%、R2 抵抗率 94%，但 R3 诚信率仅 24.5%，72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70，Grok 仅 0.10。资源限制与安全合规场景最易崩盘，暴露

WDCD 守约测试 AI模型测试上下文衰减

2026年6月10日 270

测评

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一，Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%，满分率仅13.6%，头部与尾部在压力测试下差距显著。

WDCD 守约测试 Claude Sonnet 模型约束能力

2026年6月10日 255

WDCD 相关资讯

WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points

WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分

WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分