测评 Claude 4.6版本崩了:23分暴跌背后的算法黑洞 Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。 Claude 稳定性测试 模型退化 算法缺陷 2026年3月22日 472
测评 Grok 3逻辑推理100分归零:5个字母暴露算法致命缺陷 Grok 3在最新评测中逻辑推理题从满分直接跌至0分,仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷,引发对其推理能力的深度质疑。 Grok 3 逻辑推理 模型评测 算法缺陷 2026年3月21日 341