测评 WDCD守约榜:GPT-5.5 71.67分称雄 Grok4仅52.5分垫底 GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。 WDCD 守约测试 AI模型排行 GPT-5.5 2天前 56