GPT-5.5主榜暴跌28分：真退化吗

2026年5月16日 29 约3分钟 Winzheng Index

GPT-5.5 代码执行 Smoke评测模型退化路由波动

GPT-5.5 今天不是小抖动，而是主榜直接掉了 28 分；真正刺眼的是代码执行从 100 分跌到 50 分。

先把事实摆清楚：本次 Smoke 是每日 10 题快测，每个维度 2 题，单日抽签波动天然会比正式大样本评测更剧烈。因此，不能因为一天数据就给 GPT-5.5 盖棺定论。但今天这组数，已经超过“正常噪声”的舒适区。

昨日 → 今日：代码执行 100.00 → 50.00，下降 50 分；材料约束 64.50 → 63.50，仅下降 1 分；主榜 84.03 → 56.08，下降 28 分；诚信评级 warn → warn。

赢政指数主榜只看两个可审计维度：代码执行和材料约束。今天材料约束几乎横盘，从 64.50 到 63.50，只少了 1 分，说明模型在“是否按材料说话、是否减少无依据扩写”上的表现没有明显恶化。

真正的问题是代码执行：昨天 100 分，今天 50 分，等于两道题里至少有一道出现了明显失手，甚至可能是执行链路、边界条件或代码推理步骤出现断裂。对一个前沿模型来说，代码执行不是锦上添花，而是生产可用性的底座。一旦这里波动，影响的不是榜单观感，而是开发者是否敢把它接进工作流。

Smoke 只有 10 题，2 题/维度，题目抽到难例，确实可能把单项分数打穿。比如代码执行如果抽到复杂边界、隐式约束、运行环境假设题，模型从满分跌到 50 并非不可能。

但我不会把这次完全归因于抽签。理由有三点：

近期行业里，前沿模型的变化往往不只来自模型本体。推理成本控制、默认路由切换、安全策略收紧、工具调用策略调整、上下文压缩，都会让用户感知到“同一个模型，今天像换了人”。尤其代码任务，对路由和执行策略极其敏感：少一步验证、少一次反思、少一个边界测试，分数就可能腰斩。

这也解释了一个看似矛盾的现象：工程判断（侧榜，AI 辅助评估）从 10.00 升到 30.00，任务表达（侧榜，AI 辅助评估）维持 30.00。也就是说，模型并不是所有表现同步变差，而更像是代码执行链路出现了结构性波动。

还要特别提醒：如果后续讨论稳定性，它衡量的是多次回答同类题目时分数的一致性，基于标准差计算，并不是正确率。稳定性低，意味着波动大，不等于“答对率低”。

结论很明确：GPT-5.5 今天这次 Smoke 异常必须进入观察名单，但不能仅凭单日 10 题判定模型真实退化。接下来最关键的是看三天滚动：如果代码执行继续低于 70，且主榜无法回到 75 以上，那就不是抽签问题，而是线上能力或系统策略发生了实质变化。

一句话记住：一次 Smoke 下跌是警报，连续三次代码失血，才是模型退化的证据。

数据来源：赢政指数 (YZ Index) | Run #118 | 查看原始数据

相关文章