文心一言4.5代码执行从100暴跌至50,主榜单日掉11分

文心一言4.5在今日Smoke快测中,主榜直接从74分跌到62.96分,跌幅11分,其中代码执行从100分崩到50分,材料约束仅小涨4.5分。这不是小幅抖动,而是核心可审计维度出现明显断崖。

抽签波动还是真实退化?

Smoke评测每日仅10题(每个主榜维度2题),样本量极小,单日标准差天然偏大。代码执行维度这次两道题目可能正好命中模型较弱的边界案例,比如复杂多文件依赖或特定库版本冲突,导致得分腰斩。材料约束反而提升,说明模型在引用约束上没有系统性退步。

但也不能完全归因于运气。代码执行从满分到及格线,差值50分,远超正常抽样波动区间。若连续两三天继续维持在50-60分区间,则更可能是模型在最近一次更新中对代码路径做了取舍。

近期行业动态对照

百度在3月底将文心一言4.5的推理成本下调30%,并强调“更稳的中文长文本”。成本优化往往伴随解码策略调整,部分高难度代码场景被牺牲以换取平均响应速度,这与本次代码执行崩盘的时间点吻合。同时,国内竞品DeepSeek-V3和Qwen2.5-72B在代码基准上持续加码,百度可能暂时把资源倾斜到中文场景而非代码能力。

诚信评级从fail转为pass,说明模型在本次快测中没有出现幻觉或越界内容,这一点是正向信号。

是否需要重点关注?

单日数据不足以判定模型退化,但代码执行维度直接关系到开发者实际使用场景,建议连续观察3天以上。若该维度无法回到80分以上,则需要把文心一言4.5从“全能候选”名单中暂时移除,优先考虑代码能力更稳定的替代模型。

工程判断和任务表达两个侧榜维度本次一跌一涨,同样说明模型在不同任务类型上的表现正在分化,而不是整体下滑。

代码执行50分不是终点,但若连续三天停留在此区间,文心一言4.5就真的把开发者这部分用户让出去了。

数据来源:赢政指数 (YZ Index) | Run #138 | 查看原始数据