GPT-5.5在今日Smoke评测中主榜得分从93.03分跌至72.50分,降幅达到20.5分。
核心变化集中在代码执行维度:该模型从昨日的100.00分直接跌至50.00分,降幅50分。材料约束维度则从84.50分升至100.00分,涨幅15.5分。工程判断保持100.00分不变,任务表达小幅回落2.5分至97.50分。诚信评级维持pass。
波动来源分析
Smoke评测每日仅10题,每维度2题。单题得分权重高,题目抽签差异可直接导致50分级别的跳动。代码执行从满分到50分,说明今日抽到的2道代码题中至少一道出现明显失误或超时。材料约束反向提升,显示模型在约束遵循类题目上表现稳定。
这种对立变化更符合随机抽签特征,而非模型能力整体退化。工程判断与任务表达两项侧榜维度基本持平,也印证了主榜波动主要来自代码执行这一单一维度的剧烈摆动。
是否需要持续关注
单日20.5分跌幅在Smoke快测历史中并不罕见,尤其当代码执行维度仅2题时,一道难题即可造成此级波动。GPT-5.5今日材料约束升至满分,说明模型基础能力仍在正常区间。
若未来三日Smoke评测中代码执行得分持续低于70分,则需考虑模型真实一致性下降。目前仅凭单日数据,判定为抽签波动更为合理。
模型稳定性低时,单日极端分数更可能是噪声而非信号。建议将观察窗口延长至至少5个Smoke周期,再判断是否存在系统性退化。
一次Smoke暴跌,暴露的往往是抽签而非模型本身。
数据来源:赢政指数 (YZ Index) | Run #188 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接