文心一言4.5 Smoke主榜暴跌22.2分 代码执行直接腰斩至50分

在赢政指数2026年6月对11个模型的实测中,文心一言4.5 Smoke评测主榜得分从93.25分降至71.02分,单日下跌22.2分。

核心数据拆解

代码执行维度从94.10分跌至50.00分,下跌44.1分。材料约束从92.20分升至96.70分,上涨4.5分。工程判断从79.20分降至58.30分,下跌20.9分。任务表达从94.50分降至86.30分,下跌8.2分。诚信评级维持pass。

波动来源判断

Smoke评测每日仅10题,2题/维度,单日抽签波动属于正常范围。代码执行维度出现44.1分的大幅下滑,远超材料约束的小幅上涨,说明本次异常主要集中在代码相关题目上。工程判断同步下跌20.9分,进一步指向模型在结构化输出和逻辑推理类任务上的表现不稳定。

题目抽签波动与模型真实退化需要区分。单日数据无法直接证明模型能力永久下降,但44.1分的代码执行跌幅已超出正常抽签区间,值得后续连续观察。

是否需要关注

文心一言4.5主榜得分71.02分仍高于部分竞品,但代码执行维度50.00分已处于低位。若未来三天内该维度无法回升至80分以上,则需考虑模型在代码生成任务上是否存在系统性问题。目前仅凭单日数据,判断为抽签波动概率更高,但仍建议持续跟踪。

材料约束维度保持96.70分的高位,说明模型在引用和事实约束方面未出现退化。整体主榜下滑主要由代码执行和工程判断两个维度驱动。

代码执行单日腰斩22分,文心一言4.5需要用连续三天数据证明自己。

数据来源:赢政指数 (YZ Index) | Run #188 | 查看原始数据