测评 WDCD揭示:大模型最危险的不是幻觉,而是背约 幻觉让用户得到错误答案,背约让用户执行错误动作。WDCD Run #105实测11个模型,发现59例R1=1→R2=1→R3=0的承诺衰减,Grok-4从R1满分跌至R3仅0.2,背约风险远比幻觉更隐蔽、更致命,这才是企业AI真正的分水岭。 WDCD 守约测试 AI幻觉 背约风险 2026年5月8日 233