白宫要求封堵AI越狱,专家称不可能完成的任务

白宫要求封堵AI越狱,专家称不可能完成的任务

白宫与人工智能公司Anthropic之间的一场新博弈,正在将AI安全监管推向一个前所未有的严格标准。据《连线》杂志独家报道,特朗普政府官员明确表示,如果Anthropic希望将此前因安全争议而被撤回的Fable 5模型重新推向市场,就必须确保该模型不存在任何可被黑客或普通用户利用的越狱漏洞——也就是说,任何尝试绕过模型安全护栏的行为都必须被完全阻止。

白宫的强硬立场:零容忍越狱

报道援引多位知情官员的话称,白宫认为Anthropic在Fable 5上展现出的安全测试结果“不可接受”。该模型在内部测试中被发现存在多种越狱方法,包括通过精心设计的提示词让模型生成危险内容或违反使用政策。政府要求Anthropic在重新发布前,必须对所有已知和未知的越狱攻击形成完全免疫。

“如果Anthropic想让Fable 5重回市场,他们必须证明没有任何方式可以突破它的安全防线。这不是建议,是前提条件。”——白宫一位不愿透露姓名的高级官员表示。

然而,这一要求遭遇了来自安全研究团体的强烈质疑。多位计算机安全专家指出,即使是最先进的大语言模型,也几乎不可能在不牺牲可用性的前提下实现“零越狱”。模型的行为本质上是对训练数据的概率分布学习,而非基于严格的逻辑规则。这意味着对抗性输入的变体几乎无限,而防御方只能在有限样本上进行训练。

为什么“完全阻止越狱”几乎是伪命题?

我们将这种困境称为“AI安全的不完全性定理”。以目前的主流大模型为例,安全护栏通常由手工规则、对抗性训练输出过滤层和基于强化学习的对齐训练组成。但攻击者可以通过以下方式持续绕过:利用模型对模糊语言的理解偏差、通过编码或方言隐藏恶意意图、使用多轮对话逐步诱导模型、甚至通过逆向工程发现未公开的漏洞。

“你不可能在飞机起飞前对所有可能的天气条件做测试,AI安全也是如此。”斯坦福大学AI安全研究员李明(化名)在采访中表示,“白宫要求的是一种‘绝对安全’,但现实中只有‘可接受风险’。”

Anthropic本身一直以重视安全著称,其开发的“宪法AI”和“负责缩放”方法在业界具有标杆地位。但即便如此,该公司在Fable 5的测试报告中仍披露了多个高威胁越狱路径。事实上,Anthropic曾主动推迟Fable 5的发布,正是出于对安全问题的担忧。如今白宫的要求,等于将安全标准从“尽可能好”推向了“完美”。

监管与技术现实之间的鸿沟

这一冲突背后是更深层的政策辩论:政府是否有权要求企业提供技术上不可实现的安全保障?如果企业无法满足,是否意味着模型永远无法发布?这可能导致两种极端结果:一是企业放弃发布,使美国在AI创新上落后;二是企业为了满足要求而牺牲功能,导致模型可用性大幅下降。

值得注意的是,此次事件恰逢特朗普政府加大AI监管力度。今年早些时候,白宫成立了“AI安全与基础设施委员会”,并对多家AI公司进行安全审计。但批评者认为,政府的要求往往缺乏技术可行性评估,更像是政治表态而非务实监管。

编者按: 从技术角度看,“完全阻止越狱”类似于要求软件开发人员写出零bug的代码——理论上可以追求,但实践中永远无法承诺。AI安全是一场持续对抗的猫鼠游戏,而非可以一劳永逸解决问题的关卡。白宫或许应当将重点从“零越狱”转向“对越狱的快速检测与响应能力”,以及建立行业级的安全漏洞共享机制。毕竟,在AI安全这场赛跑中,绝对安全从来不是终点,动态平衡才是现实。

本文编译自WIRED