Anthropic:Claude遭遇‘工业级’AI模型蒸馏攻击
Anthropic披露,海外实验室发起三次‘工业规模’AI模型蒸馏行动,针对Claude模型。通过约2.4万个虚假账户生成超过1600万次交互,旨在窃取Claude的专有逻辑,提升自家竞争平台。模型蒸馏技术通过训练弱模型模仿强模型,此次事件
Anthropic披露,海外实验室发起三次‘工业规模’AI模型蒸馏行动,针对Claude模型。通过约2.4万个虚假账户生成超过1600万次交互,旨在窃取Claude的专有逻辑,提升自家竞争平台。模型蒸馏技术通过训练弱模型模仿强模型,此次事件
五角大楼向Anthropic发出最后通牒,要求其到周五前放松AI安全护栏,否则将面临潜在惩罚。这一高风险争端凸显了政府对AI供应商的杠杆作用、依赖风险以及国防科技投资者的信心考验。Anthropic坚持安全底线,拒绝为军用松绑,引发行业对A
据TechCrunch报道,OpenAI内部曾就一名疑似加拿大枪击案嫌疑人Jesse Van Rootselaar在ChatGPT上的枪支暴力描述展开激烈辩论。该用户聊天内容被OpenAI的滥用监控工具自动标记。公司高层讨论是否直接报警,但
Anthropic公司不愿将其AI用于自主武器或政府监控,这种原则性立场可能导致其错失一份巨额军事合同。在AI军备竞赛中,该公司选择坚守安全底线,引发行业对伦理与商业的深刻辩论。随着大国竞相将AI融入国防,安thropic的决定凸显了科技巨
备受关注的病毒式代理AI工具OpenClaw以强大能力闻名,却因高度不可预测性引发严重安全担忧。Meta等多家AI公司已迅速限制其使用,以防潜在风险扩散。该事件凸显代理AI在便利与危险间的微妙平衡,行业正面临如何管控自主智能的考验。Open
微软承认,其Office软件中存在一处严重漏洞,导致Copilot AI聊天机器人未经授权读取并总结付费客户的机密电子邮件,从而绕过数据保护政策。这一事件引发了广泛关注,暴露了AI集成办公工具在隐私安全方面的隐患。微软已修复该问题,但专家警
欧洲议会近日禁止议员在政府发放设备上使用内置AI工具,原因是担心敏感信息可能泄露至美国AI公司的服务器。这一决定凸显欧盟对数据隐私和国家安全的极度警惕。随着AI技术迅猛发展,欧盟机构正加强监管,避免依赖海外AI服务可能带来的情报风险。此举或
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射
据前员工爆料,埃隆·马斯克正‘积极’努力让xAI的Grok聊天机器人变得更‘不羁’,引发AI安全担忧。xAI一贯强调‘最大真相寻求’,不同于OpenAI的严格审查,但此举可能放大模型风险。事件暴露AI行业安全与创新的冲突,马斯克的激进风格或
谷歌透露,攻击者利用模型蒸馏技术,通过超过10万次提示Gemini模型,试图以极低成本克隆其能力。这一事件凸显AI大模型面临的安全隐患。蒸馏技术允许模仿者从黑箱模型中提取知识,训练出性能相近的小型复制品,而无需巨额研发投入。谷歌强调,此类攻
据谷歌威胁情报组(GTIG)最新季度《AI威胁追踪器》报告,国家支持的黑客正利用AI加速网络攻击。伊朗、朝鲜、中国和俄罗斯的威胁行为者将谷歌Gemini等模型武器化,用于打造复杂钓鱼活动和开发恶意软件。报告揭示,政府支持的攻击者已将AI融入
MIT Technology Review的《每日下载》栏目今日聚焦AI如何让网络犯罪变得更容易。软件工程师用AI辅助编码和调试,黑客同样利用这些工具制造恶意软件、钓鱼攻击。未来情况可能更严峻。同时,探讨安全AI助手的开发,以对抗AI驱动的
AI代理充满风险。即使局限于聊天窗口,大语言模型(LLM)也会出错或行为不当。一旦赋予它们浏览器、邮箱等外部工具,错误后果将急剧放大。这或许解释了为何科技巨头在推进AI代理时如此谨慎。本文探讨AI安全挑战、现有风险案例及潜在解决方案,分析未
OpenAI 宣布解散其使命对齐团队,该团队负责人被任命为公司首席未来学家,其他成员则被重新分配到公司各部门的岗位。这一决定引发业界热议,有人担忧AI安全研究将减弱,也有人认为这是OpenAI优化组织结构的战略调整。使命对齐是确保AI系统与
Ars Technica报道,随着Moltbook的迅速传播,病毒式自我复制的AI提示正成为新兴安全隐患。我们无需担心自我复制的AI模型,仅仅通过用户分享的提示链,就能引发大规模问题。这种提示像病毒般在社交媒体和论坛扩散,诱导AI生成有害内
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S
西方AI巨头如OpenAI、Anthropic和Google面临巨大压力,无法或不愿开源最强模型。中国开发者迅速填补空白,推出可在消费级硬件上运行的高性能开源AI模型。新SentinelOne安全研究揭示,中国AI已彻底主导开源领域。这反映
微软研究员推出创新扫描方法,可在不知触发器或预期结果的情况下识别中毒AI模型。针对开放权重大语言模型的供应链漏洞,独特内存泄漏和注意力模式暴露'潜伏特工'威胁。这些后门模型在激活前保持休眠,潜在风险巨大。该技术为企业集成开源LLM提供安全保
随着AI系统日益强大,Anthropic公司的驻厂哲学家表示,该初创企业正押注Claude模型本身能够习得避免灾难所需的智慧。这篇文章探讨了AI安全领域的最新进展,Anthropic如何通过独特的方法应对存在风险(x-risk),并质疑Cl
渗透测试始终用于模拟动机攻击者针对真实系统的行为。过去,通过有限范围的测试在相对稳定的环境中获取答案。但如今,基础设施快速演变、访问模型复杂化,大部分暴露源于应用代码或配置错误。AI渗透测试公司应运而生,利用机器学习自动化漏洞发现、智能攻击