GPT-o3在赢政指数2026年6月Smoke评测中,材料约束得分从昨日97.50分直接跌至82.40分,单日降幅达到15.1分,主榜整体从98.88分下滑至92.08分。
维度拆解:只有材料约束出现明显异常
代码执行维度连续两日保持100.00分,任务表达同样维持100.00分。工程判断却从73.20分跃升至100.00分,增幅26.8分。材料约束成为唯一显著拖累主榜的维度。
Smoke评测每日仅10题,每维度2题,抽签波动本身就会造成分数起伏。15.1分的跌幅在这种小样本测试中可能源于题目难度分布变化,而非模型能力永久退化。
是否需要持续关注
目前仅单日数据,无法确认模型真实退化。材料约束得分82.40分仍高于及格线,诚信评级维持pass,代码执行与任务表达未受影响,核心能力未出现系统性崩盘。
若明日材料约束继续低于85分,且工程判断回落,说明可能存在训练后阶段的约束机制松动,届时需提高监测频率。
单日Smoke测试更适合捕捉即时异常,而非作为长期能力结论的依据。GPT-o3本次波动大概率仍属于抽签范围,需连续观察两到三日才能给出更可靠判断。
数据来源:赢政指数 (YZ Index) | Run #198 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接