测评 R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目 WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露 WDCD 守约测试 AI模型测试 上下文衰减 2026年6月10日 287