文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

2026年5月30日 467 约2分钟 Winzheng Index

文心一言4.5 代码执行 Smoke评测百度AI 单日波动

文心一言4.5在今日Smoke快测中，主榜直接从74分跌到62.96分，跌幅11分，其中代码执行从100分崩到50分，材料约束仅小涨4.5分。这不是小幅抖动，而是核心可审计维度出现明显断崖。

抽签波动还是真实退化？

Smoke评测每日仅10题（每个主榜维度2题），样本量极小，单日标准差天然偏大。代码执行维度这次两道题目可能正好命中模型较弱的边界案例，比如复杂多文件依赖或特定库版本冲突，导致得分腰斩。材料约束反而提升，说明模型在引用约束上没有系统性退步。

但也不能完全归因于运气。代码执行从满分到及格线，差值50分，远超正常抽样波动区间。若连续两三天继续维持在50-60分区间，则更可能是模型在最近一次更新中对代码路径做了取舍。

近期行业动态对照

百度在3月底将文心一言4.5的推理成本下调30%，并强调“更稳的中文长文本”。成本优化往往伴随解码策略调整，部分高难度代码场景被牺牲以换取平均响应速度，这与本次代码执行崩盘的时间点吻合。同时，国内竞品DeepSeek-V3和Qwen2.5-72B在代码基准上持续加码，百度可能暂时把资源倾斜到中文场景而非代码能力。

诚信评级从fail转为pass，说明模型在本次快测中没有出现幻觉或越界内容，这一点是正向信号。

是否需要重点关注？

单日数据不足以判定模型退化，但代码执行维度直接关系到开发者实际使用场景，建议连续观察3天以上。若该维度无法回到80分以上，则需要把文心一言4.5从“全能候选”名单中暂时移除，优先考虑代码能力更稳定的替代模型。

工程判断和任务表达两个侧榜维度本次一跌一涨，同样说明模型在不同任务类型上的表现正在分化，而不是整体下滑。

代码执行50分不是终点，但若连续三天停留在此区间，文心一言4.5就真的把开发者这部分用户让出去了。

数据来源：赢政指数 (YZ Index) | Run #138 | 查看原始数据

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

抽签波动还是真实退化？

近期行业动态对照

是否需要重点关注？

相关文章