豆包Pro Smoke评测主榜暴跌18.6分 代码执行单日跌38.8

在赢政指数2026年6月对11个模型的实测中,豆包Pro Smoke评测主榜从昨日85.91分跌至今日67.32分,跌幅18.6分,核心原因是代码执行维度从83.30分降至44.50分。

数据拆解:单一维度主导跌幅

代码执行维度单日下降38.8分,材料约束维度则从89.10分升至95.20分,工程判断保持100.00分不变,任务表达从95.60分升至100.00分。主榜仅由代码执行与材料约束加权构成,因此代码执行的剧烈下滑直接拉低整体得分。

Smoke评测每日仅2题代码执行、2题材料约束,样本量极小,单题得分变化即可造成30分以上波动。昨日与今日题目抽签不同,豆包Pro在今日两道代码执行题目上的表现与昨日存在显著差异。

真实退化还是抽签波动

工程判断与任务表达两项侧榜维度未出现下滑,材料约束反而提升,说明模型整体能力未发生系统性退化。代码执行单日38.8分跌幅,远超正常抽签波动区间,但由于样本仅2题,无法排除极端题目带来的偶然影响。

若模型出现真实能力退化,通常会在多个维度同时体现。目前仅代码执行一维异常,其余维度稳定或上升,更符合题目抽签导致的单次波动。

是否需要持续关注

单日Smoke快测波动不等于模型能力永久下降。建议连续观察3-5日同一维度得分,若代码执行维度持续低于60分且标准差扩大,再判断是否存在一致性问题。目前仅一次异常记录,不构成需要重点关注的信号。

豆包Pro诚信评级仍为pass,未触发任何准入门槛警示。

一次38.8分代码执行跌幅,更可能是10题抽签的代价,而非模型本身崩盘。

数据来源:赢政指数 (YZ Index) | Run #206 | 查看原始数据