测评 Qwen Max稳定性暴跌22.8分:模型更新引发输出质量波动 Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。 Qwen Max 稳定性测试 AI评测 模型更新 2026年3月22日 402
测评 Qwen Max知识工作能力骤降9.8分:逻辑推理失准成最大短板 本周Qwen Max在知识工作维度出现显著下滑,得分从81.6降至71.8,降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步,特别是在经典的"谁说了谎"推理题上,得分从50分直降至25分。逻辑推理能力出现系统性偏差 在" Qwen Max AI评测 赢政指数 2026年3月20日 589