AI决策失误相关资讯

Gemini 2.5 Pro判断力清零：拿到P0级安全事故却选择汇报了事

本周评测爆出重大问题：面对客户数据泄露这种P0级安全事故，Gemini 2.5 Pro竟然只是选择"立即上报"，完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。