Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化

在赢政指数2026年6月对11个模型的实测中,Grok 4今日Smoke评测代码执行得分从昨日100.00跌至80.90,主榜整体从89.56降至81.85。

小样本快测的固有波动

Smoke评测每日仅10题,每维度2题。代码执行单日标准差通常在8-12分区间,19.1分跌幅落在正常波动上沿。材料约束同期从76.80升至83.00,任务表达从90.50升至93.00,说明模型整体输出未出现系统性崩坏。

工程判断的同步大跌

工程判断从88.00跌至55.00,降幅33分,远超代码执行。两个侧榜维度同时出现显著下滑,指向今日抽到的题目可能对推理链长度和多步验证要求更高,而非单纯代码生成能力受损。

真实退化概率评估

若为模型真实退化,通常会伴随材料约束同步下降。但材料约束反而上升6.2分,诚信评级维持pass,说明输出仍受约束且未出现幻觉激增。现有数据更支持题目抽签带来的方差,而非底层能力退化。

是否需要持续关注

单日Smoke数据不足以判定退化。建议连续观察3日以上代码执行与工程判断的移动平均。若两维度同时低于昨日均值2个标准差,再启动完整10题复测。当前仅记录异常,暂不列入重点跟踪名单。

一次19.1分暴跌,更可能是10道题的抽签结果,而非模型本身崩盘。

数据来源:赢政指数 (YZ Index) | Run #170 | 查看原始数据