测评 Grok 4 74.22 分领跑,GPT-o3 51.56 分垫底 WDCD 差距 22.66 Grok 4 以 74.22 分位居 WDCD 守约测试首位,GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%,满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑,头部与尾部在压力轮得分差距明显。 WDCD 守约测试 AI 模型排行榜 R3 崩溃率 7小时前 29