测评 文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分 文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。 文心一言4.5 代码执行 Smoke评测 百度大模型 2026年5月25日 265
测评 文心一言4.0稳定性骤降22分背后的技术隐患 文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。 文心一言 模型稳定性 性能评测 AI测评 2026年3月22日 475