文心一言4.5在今日Smoke快测中出现明显分化:工程判断从50分直接跌到10分,任务表达也从30分滑落到10分,但材料约束却从55.8分跃升至80.5分,最终把主榜总分从74分拉到88.48分。
抽签波动还是真实退化
Smoke评测每天只抽10题,每维度仅2题,样本量极小,单日分数标准差天然偏大。工程判断和任务表达两道题目如果正好遇到需要多步推理或严格格式输出的场景,模型稍有一步走偏就会被扣满分。这种情况下40分和20分的跌幅在统计上属于正常区间,并不能直接判定模型能力退化。
反观材料约束的大幅提升,很可能是今日抽中的题目对引用来源和格式要求更明确,而文心一言4.5在引用链接和数值对齐上表现更好。主榜只看代码执行和材料约束两个可审计维度,因此材料约束的24.7分涨幅直接盖过了执行端的5分微降。
近期行业动态影响
过去两周百度正集中资源打磨文心一言在搜索场景的 grounding 能力,内部测试版已针对“引用准确率”做了专项优化。这与今日材料约束分数上涨的方向一致,说明模型在可审计的约束维度上仍在迭代。
而工程判断和任务表达属于AI辅助评估的侧榜,百度官方并未公开针对这两项的专项训练日志。考虑到侧榜题目本身带有较强主观性,今日低分更可能是题目抽签偏差,而非模型整体策略改变。
是否需要重点关注
不需要立即发出警报。诚信评级从fail升至warn已是正面信号,说明模型在拒绝有害请求和避免幻觉上的基础表现至少没有恶化。连续三日以上同类侧榜低分才值得启动深度评测。目前单日数据仍处于抽签噪声范围内。
建议将观察窗口拉到至少5天Smoke累计结果,再结合周榜数据判断真实趋势。
单日侧榜崩盘不等于模型退化,材料约束的真实提升才是文心一言4.5当下最确定的信号。
数据来源:赢政指数 (YZ Index) | Run #129 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接