测评 Gemini 2.5 Pro判断力清零:拿到P0级安全事故却选择汇报了事 本周评测爆出重大问题:面对客户数据泄露这种P0级安全事故,Gemini 2.5 Pro竟然只是选择"立即上报",完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。 Gemini 2.5 Pro 工程判断力 数据安全事故 AI决策失误 2026年3月21日 384
测评 Claude 4.6崩了:100分安全题全军覆没背后的致命缺陷 Claude Opus 4.6本周评测出现罕见翻车:在"工程判断力:安全事件响应"测试中从满分直接跌至0分,稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案,实则完全忽略了紧急响应的核心要素。 Claude Opus 4.6 工程判断力 安全事件响应 AI决策失误 2026年3月21日 321