GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

在赢政指数2026年6月对11个模型的实测中,GPT-o3今日Smoke评测材料约束得分从昨日的100.00分降至84.80分,主榜整体从100.00分降至93.16分。

单日数据拆解

代码执行维度维持100.00分不变,工程判断与任务表达同样保持满分。只有材料约束出现-15.2分下滑,直接拉低主榜6.8分。诚信评级仍为pass,未触发门槛。

波动来源分析

Smoke评测每日仅10题,每维度2题,样本量小导致单日标准差容易放大。材料约束题目若抽中边界案例或需要严格引用来源的题型,模型一次未达标即可造成15分级别的跳水。此类波动在历史同类快测中多次出现,通常次日即可回升。

另一种可能是模型真实退化。若近期参数更新或对齐策略调整影响了引用准确性,材料约束下降会持续多日。但目前仅单日数据,无法确认趋势。

是否需要关注

从工程角度看,代码执行与工程判断两项核心能力未受影响,主榜仍高于多数竞品。建议连续观察3天同一维度得分,若材料约束持续低于90分,再启动深度复测。单日异常本身不构成模型能力拐点的证据。

目前判断为抽签波动概率更高,真实退化证据不足。

一次15分跳水,更可能是10道题的抽签结果,而非模型本身崩盘。

数据来源:赢政指数 (YZ Index) | Run #187 | 查看原始数据