WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads
WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio
WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4
WDCD 五大场景横评揭示残酷真相:资源限制场景全员崩盘,冠军 grok-4 仅得 2.17 分;deepseek-v4-pro 偏科最严重,安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分,必须按场景匹配。
WDCD三轮衰减实测:R1确认率95%,R3诚信率仅29%,330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%,连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实,是大模型守约测
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
赢政指数WDCD首轮测试揭晓:Qwen3-Max以66.67分领跑,Claude系列紧随其后。分析聚焦压力下模型妥协与R3诚信轮衰减规律,揭示AI守约能力的真实边界。