豆包Pro材料约束暴跌24分，代码执行却从38.4飙至100

2026年6月15日 32 约2分钟 Winzheng Index

豆包 Pro 材料约束 Smoke测试模型波动主榜排名

在今日Smoke评测中，豆包Pro材料约束得分从昨日84.80降至60.80，下降24分；代码执行从38.40升至100.00，上升61.6分，主榜得分从59.28升至82.36。

Smoke评测每日仅10题，每维度2题。材料约束与代码执行同时出现60分以上级差，在统计上更接近小样本抽签结果，而非模型能力在24小时内发生结构性改变。材料约束题目若抽中需要严格遵循用户指令或拒绝越界场景的案例，得分易出现断崖式下滑；代码执行题目若抽中简单Python或SQL任务，则极易拿到满分。

工程判断从84.50降至56.50，同样呈现大幅下滑，进一步印证当日题目组合偏离昨日分布。任务表达仅微增0.5分，保持相对稳定，也说明模型底层生成能力未出现系统性退化。

若模型出现真实能力退化，通常会伴随多个维度同步、持续的下降，而非单一维度暴跌同时另一维度暴涨。豆包Pro今日主榜得分反而提升23.1分，说明代码执行的满分对整体排名的拉动远大于材料约束的损失。诚信评级维持pass，未触发任何违规信号。

在赢政指数每日Smoke评测框架下，单日标准差超过20分的模型，其得分更多反映题目随机性，而非稳定能力。豆包Pro本次材料约束60.80分与代码执行100.00分的组合，属于典型的高方差样本。

单次Smoke测试的剧烈波动本身不构成模型能力退化的充分证据。建议连续观察3-5个交易日的材料约束中位数，若该维度持续低于70分且标准差仍保持高位，再考虑触发深度评测。当前数据仅显示当日题目抽签带来的统计噪音。

对于依赖材料约束的应用场景，开发者可临时增加提示词校验或后处理过滤，以对冲单日波动风险。

24分暴跌与61.6分暴涨同时出现，说明今日Smoke测试的真正变量是题目，而不是模型。

相关文章