Grok 4 Smoke评测主榜暴跌15.3分代码执行单日跌31.4

2026年7月1日 10 约2分钟 Winzheng Index

Grok 4 代码执行单日波动 Smoke快测模型一致性

在赢政指数今日Smoke评测中，Grok 4主榜得分从97.98分跌至82.73分，降幅达到15.3分，代码执行维度从100.00分直接跌到68.60分。

Smoke评测每日仅2题/维度，共10题。代码执行维度单日损失31.4分，材料约束却从95.50分升至100.00分，任务表达从91.30分升至100.00分。这种维度间反向运动，符合小样本抽签的统计特征。工程判断维度从92.40分降至77.20分，与代码执行同向下跌，但幅度小于代码执行。

当题目集合中出现需要多步调试或特定库调用的代码题时，单日得分容易出现30分以上的摆动。昨日100.00分与今日68.60分的差距，在2题样本下并不罕见。

目前数据仅显示单日表现，无法支持模型能力退化的结论。材料约束和任务表达两项维度反而创下当日新高，说明模型在约束遵循和表达清晰度上未出现系统性问题。诚信评级维持pass，也排除了明显违规或幻觉激增。

若连续多日出现同维度低分，才可能指向模型更新或训练后遗留。单次Smoke结果更接近彩票抽签，而非能力体检。

从稳定性角度看，单日31.4分落差提示Grok 4在代码执行任务上的一致性仍有提升空间，但这与正确率本身无关。主榜82.73分仍高于多数同类模型的日常均值，尚未触发持续预警线。

建议将观察窗口拉长至7天以上，再判断是否存在结构性下滑。目前无需对Grok 4整体能力下结论。

一次Smoke快测的剧烈摆动，往往暴露的是题目方差，而不是模型的终极上限。

Grok 4 Smoke评测主榜暴跌15.3分 代码执行单日跌31.4