豆包 Pro 代码执行暴跌80分主榜单日掉41.2

2026年5月28日 679 约2分钟 Winzheng Index

豆包 Pro 代码执行 Smoke评测模型波动字节跳动

豆包 Pro 在今日 Smoke 评测中主榜直接从81.33分跌到40.12分，跌幅41.2分。核心原因是代码执行维度从满分100分崩到20分，单日损失80分。

Smoke 评测每天仅2题，代码执行维度出现极端低分，通常指向题目抽签集中了高难度或边缘场景。材料约束维度反而从58.5升至64.7，说明模型在约束遵循上没有系统性退化。工程判断从38.4掉到10分，也指向同一批题目可能偏向复杂多步推理。

但80分的单维度跌幅已经超过正常抽签区间。赢政指数稳定性维度显示豆包 Pro 当前仅31.7分，意味着历史同类题目得分标准差极大，一致性偏低。这次暴跌更可能是模型在特定代码场景下的不稳定表现，而非整体能力崩盘。

字节跳动近期将豆包主力资源投入性价比优化与中文长文本场景，代码能力并未成为重点迭代方向。同期开源模型如DeepSeek-Coder-V2、Qwen2.5-Coder持续发布针对性更新，豆包在纯代码任务上的相对位置有所后移。今日测试中代码执行的极端低分，与其产品策略侧重一致。

诚信评级从warn转为pass，说明模型在本次回答中未出现明显幻觉或违规内容，基础可靠性仍在及格线。

单日41.2分跌幅需要跟踪后续3天数据。若代码执行维度连续两日低于40分，则可判定为真实能力波动；若明日快速回升，则基本可归因于题目抽签。当前建议将豆包 Pro 的代码相关任务优先级下调，等待稳定性数据企稳。

80分单维度暴跌，暴露的不是模型崩盘，而是其在代码场景下早已存在的剧烈波动。

豆包 Pro 代码执行暴跌80分 主榜单日掉41.2