测评 R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘 11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律 WDCD 守约测试 模型衰减 R3压力测试 1天前 50