越狱攻击相关AI资讯 | 赢政天下 AI

白宫要求封堵AI越狱，专家称不可能完成的任务

特朗普政府官员向《连线》杂志透露，若Anthropic想要重新发布Fable 5模型，必须确保其安全护栏无法被绕过。但多位安全专家指出，在现有技术框架下完全阻止所有越狱攻击几乎不可能实现。这一要求引发了关于AI监管边界与技术可行性的新一轮争

AI公司Anthropic宣布，将把其最新模型Claude Fable 5下线，以遵守美国政府的一项命令。该公司在博客中透露，政府认为已发现绕过该模型安全防护的方法，即“越狱”漏洞。此举引发业界对AI监管与模型安全性的新一轮讨论。

美国商务部担忧Anthropic的Fable 5模型存在“越狱”漏洞，可能被用于传播虚假信息或实施网络攻击，构成国家安全威胁。在特朗普政府行政指令下，Anthropic被迫关闭旗下Fable和Mythos系列模型。此举引发AI安全与政府监管

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射