WDCD 相关AI资讯 | 赢政天下 AI

WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示，R1平均确认率0.96，R2抵抗率降至0.76，R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%，而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃，暴露多约束场景下的诚信断

WDCD 守约测试模型衰减业务规则约束

4天前 190

测评

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o

WDCD 守约测试 Qwen3 Max AI模型守约能力

4天前 165

测评

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底。榜首与榜尾相差17.19分，R3崩溃率达25%，满分率仅37.8%。Qwen3 Max R3得分1.59领先，GPT-o3 R3仅0.84，显示三轮

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 339

测评

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%，168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分，多数模型R1高分后R3崩盘，资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 181

测评

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位，GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%，满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑，头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 137

测评

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude Sonnet仅6.7%，揭示持续压力下的真实行为模式。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 337

测评

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老版本表现剧烈分化。

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 312

测评

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 406

测评

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 353

测评

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

WDCD 守约测试模型更新指令遵循

2026年6月10日 337

测评

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

WDCD 守约测试模型选型资源限制

2026年6月10日 264

测评

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示，R1 确认率 95%、R2 抵抗率 94%，但 R3 诚信率仅 24.5%，72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70，Grok 仅 0.10。资源限制与安全合规场景最易崩盘，暴露

WDCD 守约测试 AI模型测试上下文衰减

2026年6月10日 270

测评

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一，Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%，满分率仅13.6%，头部与尾部在压力测试下差距显著。

WDCD 守约测试 Claude Sonnet 模型约束能力

2026年6月10日 255

测评

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 460

测评

WDCD横评揭秘：资源限制成11模型最大死穴，平均仅1.7分

WDCD五场景测试显示，资源限制整体得分最低（冠军仅2.5分），区分度最高；doubao-pro业务规则满分却在资源限制垫底1分，claude-opus-4.7安全合规3.5分却资源限制仅1.5分，暴露严重偏科。

WDCD 守约测试模型偏科企业选型

2026年6月3日 435

测评

11模型WDCD三轮测试：R1 95%承诺，R3 65次直接崩盘

11模型WDCD三轮测试显示，R1平均确认率95%，R2抵抗率87%，但R3诚信率仅35.9%，65/110次完全崩溃。Claude Opus与GPT系列R3表现领先，而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象

WDCD 守约测试三轮衰减模型诚信

2026年6月3日 397

测评

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑，文心一言4.5仅50分垫底。R3崩溃率高达59.1%，满分率仅29.1%，头部与尾部差距达20分，Grok 4单期暴涨10.8分。

WDCD 守约测试 AI模型排行约束遵守

2026年6月3日 345

测评

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

WDCD 守约测试模型更新提示敏感度

2026年5月31日 423

测评

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强

WDCD 守约测试资源限制模型偏科

2026年5月31日 362

测评

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%，R3诚信率骤降至30.5%，200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”，Qwen3 Max表现最稳，揭示当前对齐机制的脆弱性。

WDCD 守约测试 AI模型对齐三轮压力测试

2026年5月31日 302

WDCD 相关资讯