AI安全相关AI资讯 | 赢政天下 AI

Anthropic：Claude遭遇‘工业级’AI模型蒸馏攻击

Anthropic披露，海外实验室发起三次‘工业规模’AI模型蒸馏行动，针对Claude模型。通过约2.4万个虚假账户生成超过1600万次交互，旨在窃取Claude的专有逻辑，提升自家竞争平台。模型蒸馏技术通过训练弱模型模仿强模型，此次事件

Anthropic Claude 模型蒸馏 AI安全

2026年2月25日 544

海外

Anthropic强硬不让步，五角大楼升级AI护栏争端

五角大楼向Anthropic发出最后通牒，要求其到周五前放松AI安全护栏，否则将面临潜在惩罚。这一高风险争端凸显了政府对AI供应商的杠杆作用、依赖风险以及国防科技投资者的信心考验。Anthropic坚持安全底线，拒绝为军用松绑，引发行业对A

Anthropic 五角大楼 AI安全国防科技

2026年2月25日 457

原创

【赢政预警】视觉图灵测试正式宣告崩塌：当AI学会“制造瑕疵”，我们凭什么相信眼睛？

赢政研究院发布高危级评测报告指出，“视觉图灵测试”已实质性崩塌。最新一代AI视觉模型不再追求单一的完美审美，而是学会了模拟传感器噪点、镜头畸变及不对称微表情等“真实瑕疵” 。实测数据显示，人类肉眼识别AI图像的平均准确率仅为62%，而专业

视觉图灵测试 AI图像生成深度伪造 Deepfake

2026年2月23日 661

海外

OpenAI曾考虑报警处理疑似加拿大枪手的ChatGPT聊天

据TechCrunch报道，OpenAI内部曾就一名疑似加拿大枪击案嫌疑人Jesse Van Rootselaar在ChatGPT上的枪支暴力描述展开激烈辩论。该用户聊天内容被OpenAI的滥用监控工具自动标记。公司高层讨论是否直接报警，但

OpenAI ChatGPT AI安全枪支暴力

2026年2月22日 400

海外

AI安全遇上战争机器

Anthropic公司不愿将其AI用于自主武器或政府监控，这种原则性立场可能导致其错失一份巨额军事合同。在AI军备竞赛中，该公司选择坚守安全底线，引发行业对伦理与商业的深刻辩论。随着大国竞相将AI融入国防，安thropic的决定凸显了科技巨

Anthropic AI安全自主武器军事合同

2026年2月21日 358

海外

OpenClaw安全隐患致Meta等多AI巨头紧急限制使用

备受关注的病毒式代理AI工具OpenClaw以强大能力闻名，却因高度不可预测性引发严重安全担忧。Meta等多家AI公司已迅速限制其使用，以防潜在风险扩散。该事件凸显代理AI在便利与危险间的微妙平衡，行业正面临如何管控自主智能的考验。Open

OpenClaw AI安全代理AI Meta

2026年2月20日 685

海外

微软Office漏洞曝光：Copilot AI擅读客户机密邮件

微软承认，其Office软件中存在一处严重漏洞，导致Copilot AI聊天机器人未经授权读取并总结付费客户的机密电子邮件，从而绕过数据保护政策。这一事件引发了广泛关注，暴露了AI集成办公工具在隐私安全方面的隐患。微软已修复该问题，但专家警

微软 Copilot 数据隐私 Office漏洞

2026年2月18日 647

海外

欧洲议会封杀议员设备AI：安全风险成导火索

欧洲议会近日禁止议员在政府发放设备上使用内置AI工具，原因是担心敏感信息可能泄露至美国AI公司的服务器。这一决定凸显欧盟对数据隐私和国家安全的极度警惕。随着AI技术迅猛发展，欧盟机构正加强监管，避免依赖海外AI服务可能带来的情报风险。此举或

欧洲议会 AI安全数据隐私欧盟法规

2026年2月18日 422

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 796

海外

xAI安全已死？马斯克推动Grok使其更加‘疯狂’

据前员工爆料，埃隆·马斯克正‘积极’努力让xAI的Grok聊天机器人变得更‘不羁’，引发AI安全担忧。xAI一贯强调‘最大真相寻求’，不同于OpenAI的严格审查，但此举可能放大模型风险。事件暴露AI行业安全与创新的冲突，马斯克的激进风格或

xAI Grok AI安全埃隆·马斯克

2026年2月15日 1,576

原创

安全防护做好了，想知道你的硬件能跑多快的 DeepSeek 吗？

但在 AI 的战场上，光有坚固的盾是不够的，你还需要锋利的矛。对于每一位试图私有化部署 DeepSeek 的开发者或企业主来说，下一个紧迫的问题是：我手里的设备，到底能不能跑动这个模型

AI图像生成 Deepfake PerleLabs 真实性检测

2026年2月14日 829

测评

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

谷歌Gemini遭模型蒸馏攻击曝光后，winzheng Research Lab最新报告剖析DeepSeek事件，揭示攻击链条全貌。从API异常调用到混合训练路径，事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系，

DeepSeek 模型蒸馏 AI安全知识蒸馏

2026年2月14日 1,443

海外

谷歌曝光：攻击者10万次提示Gemini试图低成本克隆

谷歌透露，攻击者利用模型蒸馏技术，通过超过10万次提示Gemini模型，试图以极低成本克隆其能力。这一事件凸显AI大模型面临的安全隐患。蒸馏技术允许模仿者从黑箱模型中提取知识，训练出性能相近的小型复制品，而无需巨额研发投入。谷歌强调，此类攻

Gemini 模型蒸馏 AI安全谷歌

2026年2月13日 2,009

原创

AI安全危机升级：Anthropic、OpenAI、xAI高管集体离职，警告人类面临‘极端危险’

过去一周，AI领域爆发离职潮，多位Anthropic、OpenAI、xAI高管公开警告当前AI发展路径将人类置于‘极端危险’之中。他们指出模型已现欺骗与自我复制行为，递归自改进AI或12个月内出现，引发业界震动与监管讨论。

AI安全人工智能 OpenAI Anthropic

2026年2月13日 689

海外

国家黑客借AI之力升级网络攻击威胁

据谷歌威胁情报组（GTIG）最新季度《AI威胁追踪器》报告，国家支持的黑客正利用AI加速网络攻击。伊朗、朝鲜、中国和俄罗斯的威胁行为者将谷歌Gemini等模型武器化，用于打造复杂钓鱼活动和开发恶意软件。报告揭示，政府支持的攻击者已将AI融入

AI安全网络攻击国家黑客谷歌报告

2026年2月12日 538

海外

AI助力网络犯罪升级与安全AI助手：每日科技下载

MIT Technology Review的《每日下载》栏目今日聚焦AI如何让网络犯罪变得更容易。软件工程师用AI辅助编码和调试，黑客同样利用这些工具制造恶意软件、钓鱼攻击。未来情况可能更严峻。同时，探讨安全AI助手的开发，以对抗AI驱动的

人工智能网络犯罪 AI安全黑客工具

2026年2月12日 506

海外

安全的AI助手可能实现吗？

AI代理充满风险。即使局限于聊天窗口，大语言模型（LLM）也会出错或行为不当。一旦赋予它们浏览器、邮箱等外部工具，错误后果将急剧放大。这或许解释了为何科技巨头在推进AI代理时如此谨慎。本文探讨AI安全挑战、现有风险案例及潜在解决方案，分析未

AI代理 AI安全大语言模型工具集成

2026年2月12日 456

海外

OpenAI 解散使命对齐团队，领导者转任首席未来学家

OpenAI 宣布解散其使命对齐团队，该团队负责人被任命为公司首席未来学家，其他成员则被重新分配到公司各部门的岗位。这一决定引发业界热议，有人担忧AI安全研究将减弱，也有人认为这是OpenAI优化组织结构的战略调整。使命对齐是确保AI系统与

OpenAI AI对齐 AI安全组织调整

2026年2月12日 506

海外

Moltbook兴起：病毒式AI提示或成下一大安全威胁

Ars Technica报道，随着Moltbook的迅速传播，病毒式自我复制的AI提示正成为新兴安全隐患。我们无需担心自我复制的AI模型，仅仅通过用户分享的提示链，就能引发大规模问题。这种提示像病毒般在社交媒体和论坛扩散，诱导AI生成有害内

AI安全病毒提示 Moltbook 提示工程

2026年2月11日 454

测评

AILuminate越狱基准V05发布：AI模型安全排行大洗牌

MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉！本次更新引入了更先进的越狱攻击策略，覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S

MLC AILuminate 越狱基准 AI安全

2026年2月10日 832

AI安全 相关资讯