测评 R3崩溃率差7倍!11模型WDCD三轮守约真实衰减 R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。 WDCD 守约测试 AI模型评测 安全合规 7小时前 148