文心一言4.5代码执行从100暴跌至50,主榜单日掉11分
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分,但材料约束暴涨24.7拉动主榜升至88.48,诚信从fail升至warn,单日抽签波动可能是主因。
文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。
文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。
文心一言4.0在最新评测中出现戏剧性崩盘:原本满分的Python字典推导题目直接跌至0分,输出结果暴露出模型对基础数据结构的理解出现严重混乱,稳定性评分暴跌3.7分。