Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

2026年6月14日 11 约2分钟 Winzheng Index

Grok 4 代码执行 Smoke评测主榜波动工程判断

在赢政指数2026年6月对11个模型的实测中，Grok 4今日Smoke评测代码执行得分从昨日100.00跌至80.90，主榜整体从89.56降至81.85。

Smoke评测每日仅10题，每维度2题。代码执行单日标准差通常在8-12分区间，19.1分跌幅落在正常波动上沿。材料约束同期从76.80升至83.00，任务表达从90.50升至93.00，说明模型整体输出未出现系统性崩坏。

工程判断从88.00跌至55.00，降幅33分，远超代码执行。两个侧榜维度同时出现显著下滑，指向今日抽到的题目可能对推理链长度和多步验证要求更高，而非单纯代码生成能力受损。

若为模型真实退化，通常会伴随材料约束同步下降。但材料约束反而上升6.2分，诚信评级维持pass，说明输出仍受约束且未出现幻觉激增。现有数据更支持题目抽签带来的方差，而非底层能力退化。

单日Smoke数据不足以判定退化。建议连续观察3日以上代码执行与工程判断的移动平均。若两维度同时低于昨日均值2个标准差，再启动完整10题复测。当前仅记录异常，暂不列入重点跟踪名单。

一次19.1分暴跌，更可能是10道题的抽签结果，而非模型本身崩盘。

相关文章