测评 豆包Pro稳定性大幅下滑背后的技术隐患 豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。 豆包Pro 稳定性测试 AI评测 模型性能 2026年3月22日 679
测评 Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患 Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。 Gemini 模型稳定性 性能评测 AI安全 2026年3月22日 484