测评 11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场 本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。 Grok 4 代码执行 新模型首秀 主榜排名 10小时前 43