大模型评估相关资讯

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 583