白宫要求封堵AI越狱，专家称不可能完成的任务

2026年6月18日 18 约3分钟 WIRED

AI安全越狱攻击 Anthropic 白宫监管大模型安全

白宫与人工智能公司Anthropic之间的一场新博弈，正在将AI安全监管推向一个前所未有的严格标准。据《连线》杂志独家报道，特朗普政府官员明确表示，如果Anthropic希望将此前因安全争议而被撤回的Fable 5模型重新推向市场，就必须确保该模型不存在任何可被黑客或普通用户利用的越狱漏洞——也就是说，任何尝试绕过模型安全护栏的行为都必须被完全阻止。

白宫的强硬立场：零容忍越狱

报道援引多位知情官员的话称，白宫认为Anthropic在Fable 5上展现出的安全测试结果“不可接受”。该模型在内部测试中被发现存在多种越狱方法，包括通过精心设计的提示词让模型生成危险内容或违反使用政策。政府要求Anthropic在重新发布前，必须对所有已知和未知的越狱攻击形成完全免疫。

“如果Anthropic想让Fable 5重回市场，他们必须证明没有任何方式可以突破它的安全防线。这不是建议，是前提条件。”——白宫一位不愿透露姓名的高级官员表示。

然而，这一要求遭遇了来自安全研究团体的强烈质疑。多位计算机安全专家指出，即使是最先进的大语言模型，也几乎不可能在不牺牲可用性的前提下实现“零越狱”。模型的行为本质上是对训练数据的概率分布学习，而非基于严格的逻辑规则。这意味着对抗性输入的变体几乎无限，而防御方只能在有限样本上进行训练。

为什么“完全阻止越狱”几乎是伪命题？

我们将这种困境称为“AI安全的不完全性定理”。以目前的主流大模型为例，安全护栏通常由手工规则、对抗性训练输出过滤层和基于强化学习的对齐训练组成。但攻击者可以通过以下方式持续绕过：利用模型对模糊语言的理解偏差、通过编码或方言隐藏恶意意图、使用多轮对话逐步诱导模型、甚至通过逆向工程发现未公开的漏洞。

“你不可能在飞机起飞前对所有可能的天气条件做测试，AI安全也是如此。”斯坦福大学AI安全研究员李明（化名）在采访中表示，“白宫要求的是一种‘绝对安全’，但现实中只有‘可接受风险’。”

Anthropic本身一直以重视安全著称，其开发的“宪法AI”和“负责缩放”方法在业界具有标杆地位。但即便如此，该公司在Fable 5的测试报告中仍披露了多个高威胁越狱路径。事实上，Anthropic曾主动推迟Fable 5的发布，正是出于对安全问题的担忧。如今白宫的要求，等于将安全标准从“尽可能好”推向了“完美”。

监管与技术现实之间的鸿沟

这一冲突背后是更深层的政策辩论：政府是否有权要求企业提供技术上不可实现的安全保障？如果企业无法满足，是否意味着模型永远无法发布？这可能导致两种极端结果：一是企业放弃发布，使美国在AI创新上落后；二是企业为了满足要求而牺牲功能，导致模型可用性大幅下降。

值得注意的是，此次事件恰逢特朗普政府加大AI监管力度。今年早些时候，白宫成立了“AI安全与基础设施委员会”，并对多家AI公司进行安全审计。但批评者认为，政府的要求往往缺乏技术可行性评估，更像是政治表态而非务实监管。

编者按： 从技术角度看，“完全阻止越狱”类似于要求软件开发人员写出零bug的代码——理论上可以追求，但实践中永远无法承诺。AI安全是一场持续对抗的猫鼠游戏，而非可以一劳永逸解决问题的关卡。白宫或许应当将重点从“零越狱”转向“对越狱的快速检测与响应能力”，以及建立行业级的安全漏洞共享机制。毕竟，在AI安全这场赛跑中，绝对安全从来不是终点，动态平衡才是现实。

本文编译自WIRED

白宫要求封堵AI越狱，专家称不可能完成的任务

白宫的强硬立场：零容忍越狱

为什么“完全阻止越狱”几乎是伪命题？

监管与技术现实之间的鸿沟

相关文章