测评 GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1% WDCD测试中GPT-5.5以88.33分夺冠,GPT-o3仅61.67分垫底,头部尾部差距26.66分,R3崩溃率22.1%。11模型中仅43.6%满分,新老版本表现剧烈分化。 WDCD 守约测试 AI模型评测 约束遵守 10小时前 104