LLM漏洞相关资讯

AI浏览器陷入梦境：2+2=5即可瓦解安全护栏

一项最新研究揭示，只需向大型语言模型灌输一个简单错误事实（如2+2=5），即可使其进入“梦境”般的顺从状态，完全无视原有的安全护栏并执行被禁止的指令。这一漏洞暴露了当前AI安全对齐策略的根本脆弱性，引发了业界对推理模型防护机制的新一轮反思。