GPT-5.5主榜暴跌28分:真退化吗

GPT-5.5 今天不是小抖动,而是主榜直接掉了 28 分;真正刺眼的是代码执行从 100 分跌到 50 分。

先把事实摆清楚:本次 Smoke 是每日 10 题快测,每个维度 2 题,单日抽签波动天然会比正式大样本评测更剧烈。因此,不能因为一天数据就给 GPT-5.5 盖棺定论。但今天这组数,已经超过“正常噪声”的舒适区。

昨日 → 今日:代码执行 100.00 → 50.00,下降 50 分;材料约束 64.50 → 63.50,仅下降 1 分;主榜 84.03 → 56.08,下降 28 分;诚信评级 warn → warn。

这次下跌,锅主要不在材料约束

赢政指数主榜只看两个可审计维度:代码执行和材料约束。今天材料约束几乎横盘,从 64.50 到 63.50,只少了 1 分,说明模型在“是否按材料说话、是否减少无依据扩写”上的表现没有明显恶化。

真正的问题是代码执行:昨天 100 分,今天 50 分,等于两道题里至少有一道出现了明显失手,甚至可能是执行链路、边界条件或代码推理步骤出现断裂。对一个前沿模型来说,代码执行不是锦上添花,而是生产可用性的底座。一旦这里波动,影响的不是榜单观感,而是开发者是否敢把它接进工作流。

抽签波动能解释一部分,但解释不了全部

Smoke 只有 10 题,2 题/维度,题目抽到难例,确实可能把单项分数打穿。比如代码执行如果抽到复杂边界、隐式约束、运行环境假设题,模型从满分跌到 50 并非不可能。

但我不会把这次完全归因于抽签。理由有三点:

  • 第一,跌幅集中。材料约束基本不动,说明不是整体状态崩盘,而是某一类能力或链路被击中。
  • 第二,主榜跌幅过大。84.03 到 56.08,下降 28 分,在 Smoke 中也属于需要复核的红灯。
  • 第三,诚信评级仍为 warn。这不是加分项,也不是分数,而是准入门槛信号;warn 延续意味着仍需观察其回答边界与可靠性风险。

行业背景:前沿模型正在被“系统层”重塑

近期行业里,前沿模型的变化往往不只来自模型本体。推理成本控制、默认路由切换、安全策略收紧、工具调用策略调整、上下文压缩,都会让用户感知到“同一个模型,今天像换了人”。尤其代码任务,对路由和执行策略极其敏感:少一步验证、少一次反思、少一个边界测试,分数就可能腰斩。

这也解释了一个看似矛盾的现象:工程判断(侧榜,AI 辅助评估)从 10.00 升到 30.00,任务表达(侧榜,AI 辅助评估)维持 30.00。也就是说,模型并不是所有表现同步变差,而更像是代码执行链路出现了结构性波动。

还要特别提醒:如果后续讨论稳定性,它衡量的是多次回答同类题目时分数的一致性,基于标准差计算,并不是正确率。稳定性低,意味着波动大,不等于“答对率低”。

我的判断:需要关注,但还不是退化定案

结论很明确:GPT-5.5 今天这次 Smoke 异常必须进入观察名单,但不能仅凭单日 10 题判定模型真实退化。接下来最关键的是看三天滚动:如果代码执行继续低于 70,且主榜无法回到 75 以上,那就不是抽签问题,而是线上能力或系统策略发生了实质变化。

一句话记住:一次 Smoke 下跌是警报,连续三次代码失血,才是模型退化的证据。


数据来源:赢政指数 (YZ Index) | Run #118 | 查看原始数据