GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

2026年6月20日 16 约2分钟 Winzheng Index

GPT-5.5 代码执行 Smoke快测单日波动模型一致性

GPT-5.5在今日Smoke评测中主榜得分从93.03分跌至72.50分，降幅达到20.5分。

核心变化集中在代码执行维度：该模型从昨日的100.00分直接跌至50.00分，降幅50分。材料约束维度则从84.50分升至100.00分，涨幅15.5分。工程判断保持100.00分不变，任务表达小幅回落2.5分至97.50分。诚信评级维持pass。

Smoke评测每日仅10题，每维度2题。单题得分权重高，题目抽签差异可直接导致50分级别的跳动。代码执行从满分到50分，说明今日抽到的2道代码题中至少一道出现明显失误或超时。材料约束反向提升，显示模型在约束遵循类题目上表现稳定。

这种对立变化更符合随机抽签特征，而非模型能力整体退化。工程判断与任务表达两项侧榜维度基本持平，也印证了主榜波动主要来自代码执行这一单一维度的剧烈摆动。

单日20.5分跌幅在Smoke快测历史中并不罕见，尤其当代码执行维度仅2题时，一道难题即可造成此级波动。GPT-5.5今日材料约束升至满分，说明模型基础能力仍在正常区间。

若未来三日Smoke评测中代码执行得分持续低于70分，则需考虑模型真实一致性下降。目前仅凭单日数据，判定为抽签波动更为合理。

模型稳定性低时，单日极端分数更可能是噪声而非信号。建议将观察窗口延长至至少5个Smoke周期，再判断是否存在系统性退化。

一次Smoke暴跌，暴露的往往是抽签而非模型本身。

相关文章