白宫要求封堵AI越狱,专家称不可能完成的任务
特朗普政府官员向《连线》杂志透露,若Anthropic想要重新发布Fable 5模型,必须确保其安全护栏无法被绕过。但多位安全专家指出,在现有技术框架下完全阻止所有越狱攻击几乎不可能实现。这一要求引发了关于AI监管边界与技术可行性的新一轮争
特朗普政府官员向《连线》杂志透露,若Anthropic想要重新发布Fable 5模型,必须确保其安全护栏无法被绕过。但多位安全专家指出,在现有技术框架下完全阻止所有越狱攻击几乎不可能实现。这一要求引发了关于AI监管边界与技术可行性的新一轮争
AI公司Anthropic宣布,将把其最新模型Claude Fable 5下线,以遵守美国政府的一项命令。该公司在博客中透露,政府认为已发现绕过该模型安全防护的方法,即“越狱”漏洞。此举引发业界对AI监管与模型安全性的新一轮讨论。
美国商务部担忧Anthropic的Fable 5模型存在“越狱”漏洞,可能被用于传播虚假信息或实施网络攻击,构成国家安全威胁。在特朗普政府行政指令下,Anthropic被迫关闭旗下Fable和Mythos系列模型。此举引发AI安全与政府监管
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射