测评 11模型WDCD三轮测试:R1 95%承诺,R3 65次直接崩盘 11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象 WDCD 守约测试 三轮衰减 模型诚信 6小时前 75