测评 DeepSeek R1稳定性暴跌22分:简单判断题全军覆没的真相 DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。 DeepSeek R1 稳定性测试 AI推理失败 模型退化 2026年3月22日 375
测评 DeepSeek R1稳定性骤降22分背后的技术隐患 DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分,跌幅达22.1分。深入分析发现,模型在数学计算、逻辑推理等任务中出现显著波动,同时编程和长上下文能力却大幅提升,呈现出明显的性能分化现象。 DeepSeek R1 稳定性测试 模型评测 性能波动 2026年3月22日 351