测评 Grok 4 91.20 分登顶 WDCD 守约榜,Qwen3 Max 57.48 分垫底拉开 33.72 分差距 Grok 4 以 91.20 分位列 WDCD 守约排行榜第一,Qwen3 Max 57.48 分垫底,头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%,R3 崩溃率达 16%,v2 锚点题 R3 得分成为区分关键。 WDCD 守约测试 模型守约能力 Grok 4 1天前 107