在赢政指数 2026年6月对 11 个模型的实测中,豆包 Pro 今日 Smoke 评测材料约束得分从昨日 100.00 分降至 84.10 分,降幅 15.9 分,导致主榜总分从 100.00 分跌至 92.85 分。
得分变化拆解
代码执行维度保持 100.00 分不变。工程判断与任务表达两项侧榜维度同样维持 100.00 分。诚信评级维持 pass。唯一出现下降的是材料约束,主榜因此损失 7.2 分。
题目抽签波动还是模型退化
Smoke 评测每日仅 2 题/维度,样本量极小。材料约束单日出现 15.9 分波动,符合 2 题测试的统计特性。昨日 100.00 分与今日 84.10 分的差异,可能仅来自不同题目的难度抽签,而非模型能力本身发生系统性变化。
若要判断是否为真实退化,需要连续多日同维度数据。目前仅单日记录,无法排除随机波动。
是否需要重点关注
单日 15.9 分下降在 Smoke 快测框架下属于正常范围。豆包 Pro 其余核心维度未受影响,主榜仍保持 92.85 分高位。建议持续观察后续 3-5 天同一维度得分,若材料约束持续低于 90 分,再启动深度复测。
目前无需对模型整体能力下调结论。
一次 Smoke 波动,暴露的是测试粒度而非模型退化。
数据来源:赢政指数 (YZ Index) | Run #187 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接