豆包 Pro 代码执行暴跌80分 主榜单日掉41.2

豆包 Pro 代码执行暴跌80分 主榜单日掉41.2

豆包 Pro 在今日 Smoke 评测中主榜直接从81.33分跌到40.12分,跌幅41.2分。核心原因是代码执行维度从满分100分崩到20分,单日损失80分。

抽签波动还是真实退化

Smoke 评测每天仅2题,代码执行维度出现极端低分,通常指向题目抽签集中了高难度或边缘场景。材料约束维度反而从58.5升至64.7,说明模型在约束遵循上没有系统性退化。工程判断从38.4掉到10分,也指向同一批题目可能偏向复杂多步推理。

但80分的单维度跌幅已经超过正常抽签区间。赢政指数稳定性维度显示豆包 Pro 当前仅31.7分,意味着历史同类题目得分标准差极大,一致性偏低。这次暴跌更可能是模型在特定代码场景下的不稳定表现,而非整体能力崩盘。

近期行业动态对照

字节跳动近期将豆包主力资源投入性价比优化与中文长文本场景,代码能力并未成为重点迭代方向。同期开源模型如DeepSeek-Coder-V2、Qwen2.5-Coder持续发布针对性更新,豆包在纯代码任务上的相对位置有所后移。今日测试中代码执行的极端低分,与其产品策略侧重一致。

诚信评级从warn转为pass,说明模型在本次回答中未出现明显幻觉或违规内容,基础可靠性仍在及格线。

是否需要持续关注

单日41.2分跌幅需要跟踪后续3天数据。若代码执行维度连续两日低于40分,则可判定为真实能力波动;若明日快速回升,则基本可归因于题目抽签。当前建议将豆包 Pro 的代码相关任务优先级下调,等待稳定性数据企稳。

80分单维度暴跌,暴露的不是模型崩盘,而是其在代码场景下早已存在的剧烈波动。

数据来源:赢政指数 (YZ Index) | Run #136 | 查看原始数据