豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro在今日Smoke评测中出现明显异常,材料约束维度从昨日的95分直接跌到79.8分,单日降幅达到15.2分,主榜整体从97.75分下滑至90.91分。这一数据在每日仅10题的快测中并不常见,值得重点关注。

波动来源:题目抽签还是能力退化

Smoke评测每天随机抽取2题测试材料约束,样本量小,单日分数波动属于正常范围。但15.2分的降幅已超出历史平均波动区间。昨日材料约束95分对应较强的引用准确性和抗幻觉能力,今日79.8分则显示模型在处理带材料任务时出现更多未按给定材料回答或过度外推的情况。

另一种可能是模型本身出现短期退化。字节跳动近期对豆包系列进行多轮迭代,重点加强了多模态与长文本能力。若底层对齐策略调整影响了材料遵循优先级,就可能在短时间内体现为 grounding 分数下降。

侧面数据提供佐证

值得注意的是,同一测试中工程判断从50分升至66.7分,任务表达从30分升至50分。这两个侧榜维度提升,说明模型在推理链条和表达组织上并未整体下滑。代码执行继续保持100分满分,进一步排除了大规模能力崩塌的可能。

综合来看,更大概率是题目抽签带来的偶然性放大,而非持续退化。但连续两日出现类似 grounding 波动时,就需要提高警惕。

是否需要重点关注

目前单日数据尚不足以判定模型进入退化通道。建议连续观察3-5天同一维度的趋势,若材料约束持续低于85分且标准差扩大,再启动深度复测。短期内用户使用豆包Pro处理带材料问答时,可额外增加人工校验环节。

单日15分级波动不等于能力崩盘,但连续波动就是警报。

数据来源:赢政指数 (YZ Index) | Run #123 | 查看原始数据