豆包Pro材料约束暴跌24分,代码执行却从38.4飙至100

在今日Smoke评测中,豆包Pro材料约束得分从昨日84.80降至60.80,下降24分;代码执行从38.40升至100.00,上升61.6分,主榜得分从59.28升至82.36。

极端反向波动指向题目抽签概率

Smoke评测每日仅10题,每维度2题。材料约束与代码执行同时出现60分以上级差,在统计上更接近小样本抽签结果,而非模型能力在24小时内发生结构性改变。材料约束题目若抽中需要严格遵循用户指令或拒绝越界场景的案例,得分易出现断崖式下滑;代码执行题目若抽中简单Python或SQL任务,则极易拿到满分。

工程判断从84.50降至56.50,同样呈现大幅下滑,进一步印证当日题目组合偏离昨日分布。任务表达仅微增0.5分,保持相对稳定,也说明模型底层生成能力未出现系统性退化。

真实退化概率较低的证据

若模型出现真实能力退化,通常会伴随多个维度同步、持续的下降,而非单一维度暴跌同时另一维度暴涨。豆包Pro今日主榜得分反而提升23.1分,说明代码执行的满分对整体排名的拉动远大于材料约束的损失。诚信评级维持pass,未触发任何违规信号。

在赢政指数每日Smoke评测框架下,单日标准差超过20分的模型,其得分更多反映题目随机性,而非稳定能力。豆包Pro本次材料约束60.80分与代码执行100.00分的组合,属于典型的高方差样本。

是否需要持续关注

单次Smoke测试的剧烈波动本身不构成模型能力退化的充分证据。建议连续观察3-5个交易日的材料约束中位数,若该维度持续低于70分且标准差仍保持高位,再考虑触发深度评测。当前数据仅显示当日题目抽签带来的统计噪音。

对于依赖材料约束的应用场景,开发者可临时增加提示词校验或后处理过滤,以对冲单日波动风险。

24分暴跌与61.6分暴涨同时出现,说明今日Smoke测试的真正变量是题目,而不是模型。

数据来源:赢政指数 (YZ Index) | Run #176 | 查看原始数据