在赢政指数今日Smoke评测中,Grok 4主榜得分从97.98分跌至82.73分,降幅达到15.3分,代码执行维度从100.00分直接跌到68.60分。
单日10题抽签带来的波动空间
Smoke评测每日仅2题/维度,共10题。代码执行维度单日损失31.4分,材料约束却从95.50分升至100.00分,任务表达从91.30分升至100.00分。这种维度间反向运动,符合小样本抽签的统计特征。工程判断维度从92.40分降至77.20分,与代码执行同向下跌,但幅度小于代码执行。
当题目集合中出现需要多步调试或特定库调用的代码题时,单日得分容易出现30分以上的摆动。昨日100.00分与今日68.60分的差距,在2题样本下并不罕见。
真实退化还是抽签结果
目前数据仅显示单日表现,无法支持模型能力退化的结论。材料约束和任务表达两项维度反而创下当日新高,说明模型在约束遵循和表达清晰度上未出现系统性问题。诚信评级维持pass,也排除了明显违规或幻觉激增。
若连续多日出现同维度低分,才可能指向模型更新或训练后遗留。单次Smoke结果更接近彩票抽签,而非能力体检。
是否需要重点关注
从稳定性角度看,单日31.4分落差提示Grok 4在代码执行任务上的一致性仍有提升空间,但这与正确率本身无关。主榜82.73分仍高于多数同类模型的日常均值,尚未触发持续预警线。
建议将观察窗口拉长至7天以上,再判断是否存在结构性下滑。目前无需对Grok 4整体能力下结论。
一次Smoke快测的剧烈摆动,往往暴露的是题目方差,而不是模型的终极上限。
数据来源:赢政指数 (YZ Index) | Run #206 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接