测评 Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患 Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。 Gemini 模型稳定性 性能评测 AI安全 2026年3月22日 484
测评 文心一言4.0稳定性骤降22分背后的技术隐患 文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。 文心一言 模型稳定性 性能评测 AI测评 2026年3月22日 324