WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律
WDCD三轮衰减实测:R1确认率95%,R3诚信率仅29%,330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%,连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实,是大模型守约测