测评 R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目 WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露 WDCD 守约测试 AI模型测试 上下文衰减 2026年6月10日 287
测评 揭秘WDCD守约测试:3轮30题直击AI“失信”痛点,颠覆评测格局! 现有AI评测只测能力,却忽略守约可靠性。YZ Index的WDCD测试通过3轮设计和30道企业场景题,填补空白,透明判分揭示AI抗压与遗忘问题。深度解读其创新价值,帮助企业选可靠AI。 AI评测 赢政指数 WDCD测试 AI守约 2026年5月2日 519