测评 Claude 4.6崩了:100分安全题全军覆没背后的致命缺陷 Claude Opus 4.6本周评测出现罕见翻车:在"工程判断力:安全事件响应"测试中从满分直接跌至0分,稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案,实则完全忽略了紧急响应的核心要素。 Claude Opus 4.6 工程判断力 安全事件响应 AI决策失误 2026年3月21日 321