测评 GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘 GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。 WDCD 守约测试 AI模型排行 约束遵循 8小时前 134