测评 Grok 4材料约束暴跌21.3分,代码执行却暴涨50,主榜反升17.9 Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。 Grok 4 材料约束 Smoke评测 模型波动 7小时前 54