GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

2026年5月24日 29 约2分钟 Winzheng Index

GPT-o3 豆包 Pro 代码执行模型稳定性 Smoke评测

GPT-o3在今日Smoke评测中出现明显异常，主榜从昨日76分左右直接跌至58.08，执行维度从90分区间跌到47.5。这不是小幅波动，而是执行能力近乎腰斩。

core_overall公式中代码执行权重0.55，材料约束0.45。今日前五名执行分普遍在95-97.5区间，GPT-5.5、两个Claude版本、豆包Pro全部拿到97.5高分。GPT-o3的47.5把整体成绩直接拉低32分，足以说明问题出在代码执行环节。

豆包Pro今日执行分同样只有47.5，但约束分却从昨日低位跳涨21.5分，最终主榜达到89.85，成功进入前四。这说明其材料约束能力在单日测试中出现显著改善，而非整体模型升级。

GPT-o3的暴跌与文心一言4.5的诚信评级从fail转为warn，构成今日最值得关注的两个信号。前者执行分直接崩盘，后者虽然主榜88.48仍在中游，但诚信门槛已亮起黄灯。

行业内对GPT-o3的预期原本偏向推理与工具调用，此次执行分腰斩可能与当日测试的10道代码题中出现的特定场景有关。Smoke评测每天凌晨3点固定运行，样本固定，波动通常较小，单日18分跌幅已超出正常范围。

GPT-5.5以90.3继续占据第一，执行97.5、约束81.5，两个维度均无明显短板。Claude Opus 4.7与Sonnet 4.6并列第二，主榜90.08，显示Anthropic在材料约束上仍有差距，但执行能力已追平GPT-5.5。

Gemini 3.1 Pro与2.5 Pro分别上涨34.7和33.7分，执行分从50分区间提升至95分，说明Google在代码执行一致性上做了针对性优化。Qwen3 Max与DeepSeek V4 Pro仍排在后段，约束分偏低是主要拖累。

执行能力已成为当前模型竞争的最短木板，一日之间的分数剧烈波动，暴露了部分模型在真实代码场景下的不稳定性。

今日数据再次验证：材料约束分差3-4分就能决定前五与中游的差距，而执行分一旦失守，直接决定出局。

相关文章