测评 Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性 WDCD三轮测试显示,R1平均确认率0.95,R2抵抗率0.82,R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃,而Claude Sonnet 4.6与GPT-o3各崩6次(17.1%),多约束场景成为最大崩盘诱因 WDCD 守约测试 三轮衰减 R3崩溃 7小时前 59