WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象
Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instructi
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding an average commitmen
Qwen3 Max WDCD暴涨15分至72.50登顶,DeepSeek V4 Pro同涨15分,Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分,三升三降揭示中文模型守约能力正在快速迭代。
WDCD测试显示业务规则场景整体得分最低,垫底仅1/4;安全合规区分度最大达2分;gemini-2.5-pro、gpt-5.5等模型偏科差距2分,企业选型必须按场景匹配。
R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。
Qwen3 Max 以 72.50 分领跑 WDCD 守约榜,R3 阶段拿下 0.90/2;文心一言 4.5 以 45 分垫底,R3 仅 0.30。11 个模型中满分率仅 11.8%,R3 崩溃率高达 60.9%,头部与尾部差距达 27.5
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with average instruction
本轮WDCD测试中6个模型全部下滑,无一上升,GPT-5.5跌19.2分最惨,Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑,显示其在约束遵循上具备明显优势,值得持续追踪。
WDCD试点测试显示,业务规则场景全体得分最低,冠军仅2.5分;安全合规区分度最大,高低差2分。Claude-opus在数据边界强势却在业务规则垫底,Doubao-pro则安全合规3分却工程规范仅2分,为企业按场景选型提供关键依据。
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。