测评 67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜 Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。 WDCD 守约测试 Claude Sonnet 模型约束能力 9小时前 62