文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3

在赢政指数2026年6月对11个模型的实测中,文心一言4.5今日Smoke评测主榜得分从81.69分跌至71.33分,单日下降10.4分。

维度拆解:两项主榜指标同步下滑

代码执行维度从66.70分降至50.00分,下降16.7分;材料约束从100.00分降至97.40分,下降2.6分。两项主榜维度合计导致整体主榜回落。工程判断从44.70分升至72.20分,上升27.5分;任务表达从90.00分降至46.30分,下降43.7分。

波动来源分析

Smoke评测每日仅10题,每维度2题,单日抽签结果对分数影响显著。代码执行与任务表达同时出现大幅回落,更可能是题目抽签带来的随机波动,而非模型能力出现系统性退化。材料约束仍维持97.40分的高位,也支持这一判断。

工程判断出现明显回升,诚信评级从warn转为pass,表明模型在部分侧榜维度上的输出稳定性与合规性并未同步恶化。若为真实退化,通常会伴随多个维度同步走弱,而非出现此种此消彼长的情况。

是否需要持续关注

单日10题快测的固有波动特性决定了,单次10.4分回落本身并不构成模型能力断崖的证据。建议在后续3-5个交易日的Smoke数据中观察代码执行与任务表达是否持续低于60分区间。若连续多日维持低位,再结合正式评测数据才能判断是否存在真实退化。

目前看,文心一言4.5仍处于正常波动范围内,无需立即下调其长期能力预期。

一次抽签波动,不等于模型退化;连续三日低位,才是真正信号。

数据来源:赢政指数 (YZ Index) | Run #184 | 查看原始数据