测评 R3崩溃率高达60%!11模型WDCD三轮测试集体翻车 R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。 WDCD 守约测试 AI模型对齐 三轮压力测试 4小时前 38