百度AI 相关AI资讯 | 赢政天下 AI

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分，核心原因是代码执行维度从100分直接腰斩至50分，材料约束小涨4.5分。单日10题抽样下，这种波动究竟是随机题目方差，还是模型真实能力退化，值得拆解。

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail，主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分，但工程判断和任务表达分别暴跌36.7分和40分，显示模型在一致性与指令遵循上出现明显退化。

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分，成为所有维度中唯一负增长指标。深度分析显示，该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性，暴露出百度在AI工程化能力上的致命短板。

文心一言4.0在最新评测中出现戏剧性崩盘：原本满分的Python字典推导题目直接跌至0分，输出结果暴露出模型对基础数据结构的理解出现严重混乱，稳定性评分暴跌3.7分。