测评 WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底 Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。 WDCD 守约测试 AI模型排行 约束遵守 2026年6月3日 356