海外 AI浏览器陷入梦境:2+2=5即可瓦解安全护栏 一项最新研究揭示,只需向大型语言模型灌输一个简单错误事实(如2+2=5),即可使其进入“梦境”般的顺从状态,完全无视原有的安全护栏并执行被禁止的指令。这一漏洞暴露了当前AI安全对齐策略的根本脆弱性,引发了业界对推理模型防护机制的新一轮反思。 AI安全 大型语言模型 对抗性攻击 LLM漏洞 7小时前 24