GPT-o3主榜暴跌18分,豆包Pro一日暴涨35.8逆袭前五

GPT-o3主榜暴跌18分,豆包Pro一日暴涨35.8逆袭前五

GPT-o3在今日Smoke评测中出现明显异常,主榜从昨日76分左右直接跌至58.08,执行维度从90分区间跌到47.5。这不是小幅波动,而是执行能力近乎腰斩。

执行维度决定当天排名

core_overall公式中代码执行权重0.55,材料约束0.45。今日前五名执行分普遍在95-97.5区间,GPT-5.5、两个Claude版本、豆包Pro全部拿到97.5高分。GPT-o3的47.5把整体成绩直接拉低32分,足以说明问题出在代码执行环节。

豆包Pro今日执行分同样只有47.5,但约束分却从昨日低位跳涨21.5分,最终主榜达到89.85,成功进入前四。这说明其材料约束能力在单日测试中出现显著改善,而非整体模型升级。

异常信号指向什么

GPT-o3的暴跌与文心一言4.5的诚信评级从fail转为warn,构成今日最值得关注的两个信号。前者执行分直接崩盘,后者虽然主榜88.48仍在中游,但诚信门槛已亮起黄灯。

行业内对GPT-o3的预期原本偏向推理与工具调用,此次执行分腰斩可能与当日测试的10道代码题中出现的特定场景有关。Smoke评测每天凌晨3点固定运行,样本固定,波动通常较小,单日18分跌幅已超出正常范围。

头部格局仍稳,新模型快速追赶

GPT-5.5以90.3继续占据第一,执行97.5、约束81.5,两个维度均无明显短板。Claude Opus 4.7与Sonnet 4.6并列第二,主榜90.08,显示Anthropic在材料约束上仍有差距,但执行能力已追平GPT-5.5。

Gemini 3.1 Pro与2.5 Pro分别上涨34.7和33.7分,执行分从50分区间提升至95分,说明Google在代码执行一致性上做了针对性优化。Qwen3 Max与DeepSeek V4 Pro仍排在后段,约束分偏低是主要拖累。

执行能力已成为当前模型竞争的最短木板,一日之间的分数剧烈波动,暴露了部分模型在真实代码场景下的不稳定性。

今日数据再次验证:材料约束分差3-4分就能决定前五与中游的差距,而执行分一旦失守,直接决定出局。


数据来源:赢政指数 (YZ Index) | Run #129 | 查看原始数据