AI安全相关AI资讯 | 赢政天下 AI

马斯克庭审首周：自曝被欺骗，AI恐毁灭人类

在马斯克诉OpenAI里程碑式庭审的第一周，马斯克身着西装出庭，指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类，并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷，马

马斯克 OpenAI AI安全法律诉讼

2026年5月2日 427

海外

AI时代，网络安全何以自处？

在人工智能技术深度融入企业基础设施之前，网络安全已不堪重负。如今，AI不仅扩大了攻击面，还带来了全新的复杂性，让传统安全机制的局限性愈发凸显。本期MIT Technology Review的EmTech AI会议深度探讨了为何必须将AI置于

网络安全人工智能 AI安全攻防技术

2026年5月2日 404

海外

批评Anthropic限制神话后，OpenAI也限制赛博访问

OpenAI宣布其网络安全测试工具GPT-5.5赛博将仅向关键网络防御者开放，引发业界对AI安全工具使用限制的讨论。此前OpenAI曾批评竞争对手Anthropic限制其神话模型，如今自身采取类似策略，被指双重标准。文章分析此举背后的安全与

OpenAI 网络安全 GPT-5.5 AI安全

2026年5月1日 394

海外

OpenAI推出高级安全模式，保护高危账户

OpenAI宣布为其ChatGPT和Codex等账户推出高级安全模式，旨在防护针对高风险用户的钓鱼攻击。该功能通过多因素认证和行为分析增强账户安全，尤其适用于记者、活动家等易受攻击人群。业内分析认为，此举反映了AI服务在隐私与安全方面的进化

OpenAI 账户安全钓鱼攻击多因素认证

2026年5月1日 392

海外

OpenAI Codex指令暗藏玄机：禁止提及地精

Ars Technica报道，OpenAI的Codex系统提示中包含一条明确指令，要求模型“永远不要谈论地精”，同时还要求其表现得“拥有丰富的内心世界”。这一发现引发了对AI系统安全与行为控制的讨论，揭示了开发者如何通过隐藏指令塑造AI的响

AI安全 OpenAI 系统提示行为控制

2026年4月30日 436

海外

未举报校园枪手，OpenAI CEO被指“邪恶化身”

在最新一起诉讼中，OpenAI被指控未向警方报告一名使用ChatGPT策划校园枪击案的用户，以保护CEO萨姆·奥尔特曼（Sam Altman）的形象及公司即将进行的IPO。律师称奥尔特曼是“邪恶的化身”，并指责OpenAI将商业利益置于公共

OpenAI 萨姆·奥尔特曼 AI安全校园枪击

2026年4月29日 329

海外

马斯克作证：创立OpenAI是为防‘终结者’

在法庭上，埃隆·马斯克作证称，他创立OpenAI的初衷是防止人工智能导致“终结者”式的灾难性后果。法官同时警告马斯克和山姆·奥特曼，要求他们克制在社交媒体上的攻击行为，避免加剧庭外纷争。

马斯克 OpenAI AI安全法庭

2026年4月29日 326

海外

OpenAI强令AI助手：闭嘴，别谈哥布林！

OpenAI为其编程助手Codex设定了严格的指令：除非绝对必要，否则禁止谈论哥布林、地精、浣熊等奇幻生物。这一看似搞笑的限制，实则揭示了AI安全对齐领域的深层挑战——如何防止AI模型在无关情境下产生偏离预期的输出，确保其专注于任务本身。

OpenAI Codex AI安全编程助手

2026年4月29日 385

海外

谷歌警告：恶意网页正在“下毒”攻击企业AI代理

谷歌研究人员发出警告，公共网页正通过间接提示注入攻击，主动劫持企业AI代理。安全团队扫描Common Crawl公共网页数据库时，发现了一种日益增长的“数字陷阱”趋势：网站管理员和恶意行为者将隐藏指令嵌入标准HTML中，这些指令对用户不可见

AI安全提示注入谷歌警告企业AI代理

2026年4月28日 405

海外

Delve客户再遭安全事件，AI行业震动

近日，知名AI代理训练初创公司Context AI披露了一起重大安全事件，而负责其安全认证的合规企业正是陷入困境的Delve公司。这一事件引发了业界对AI安全标准的广泛关注。Delve公司此前因多起安全漏洞而备受质疑，此次事件无疑加剧了外界

AI安全 Delve Context AI 技术合规

2026年4月23日 321

海外

AI漏洞发现逆转企业安全成本

自动化AI漏洞发现技术正在逆转传统上对攻击者有利的企业安全成本。过去，将漏洞利用降至零被视为不切实际的目标。传统的运营原则是让攻击变得非常昂贵，以至于只有具备无限预算的对手才能承受，从而阻止随意使用。然而，最近的评估表明，AI技术正在改变这

AI安全漏洞发现企业安全

2026年4月23日 301

海外

未经授权组织入侵Anthropic的网络工具Mythos

据报道，未经授权的组织已经获得了Anthropic独家网络工具Mythos的访问权限。Anthropic向TechCrunch表示，他们正在调查这些指控，但坚称没有证据表明其系统受到影响。此次事件引发了对网络安全措施有效性的关注，尤其是在A

AI安全网络安全 Anthropic

2026年4月22日 322

海外

Commvault推出云AI工作负载的“撤销”功能

企业云环境现在可以使用Commvault AI Protect提供的撤销功能来保护AI代理。随着自主软件在基础设施中运行，可能会删除文件、读取数据库、启动服务器集群，甚至重写访问策略。Commvault识别到这一治理问题，并推出AI Pro

云计算 AI安全数据保护

2026年4月16日 279

海外

Claude在HumanX大会上引发热议

在旧金山举办的以人工智能为主题的HumanX大会上，Anthropic公司成为了众人瞩目的焦点。该公司展示的Claude引发了与会者的广泛讨论。Anthropic以其在人工智能安全性和可控性方面的创新而闻名，这次展示的Claude更是体现了

人工智能 AI安全技术创新

2026年4月13日 376

海外

微软开源工具包：运行时保障企业AI代理安全

微软近日推出了一款开源工具包，专注于运行时安全机制，以对企业AI代理实施严格治理。这一举措直击当前痛点：自主语言模型正以惊人速度执行代码并访问公司网络，远超传统政策控制的响应能力。过去，AI集成主要体现为对话界面和咨询式协作者，但如今AI代

微软AI 开源工具包 AI安全企业治理

2026年4月9日 477

海外

Anthropic携手苹果谷歌等45+巨头联防AI黑客威胁

Anthropic推出的Project Glasswing项目集结苹果、谷歌及逾45家组织，共同利用全新Claude Mythos Preview模型测试AI网络安全能力。这一跨界合作旨在应对AI日益强大的黑客潜力，确保人工智能不会成为网络

Anthropic AI安全网络安全 Claude模型

2026年4月8日 528

海外

Anthropic拒绝武装AI，正是英国青睐它的原因

Anthropic拒绝美国国防部要求移除Claude AI的安全护栏，避免用于全自治武器和国内大规模监视，这一原则性立场引发美国施压，却让英国政府抛出橄榄枝。故事并非外交拉锯，而是政府因企业坚守底线而惩罚的典型案例。英国视Anthropic

Anthropic AI安全英国AI战略 AI军用化

2026年4月8日 403

海外

“问题出在Sam Altman”：OpenAI内部人士不信任CEO

OpenAI内部人士对CEO Sam Altman失去信任，认为其领导风格引发公司分裂。公司正通过脑暴AI如何造福人类的方式，试图扭转负面氛围。此事件源于Altman过去被董事会解雇的风波，以及近期安全与商业化冲突。业内担忧这可能影响Ope

OpenAI Sam Altman AI领导危机公司内部矛盾

2026年4月7日 435

海外

黑客散布Claude代码泄露，还捆绑恶意软件

黑客正在网络上传播Anthropic Claude AI模型的源代码泄露文件，并恶意附赠木马病毒，诱导下载者感染设备。同时，FBI警告其窃听工具遭黑客入侵构成国家安全威胁；攻击者窃取Cisco源代码，作为持续供应链攻击的一部分。此事件凸显A

Claude泄露恶意软件网络安全供应链攻击

2026年4月4日 509

海外

Meta 暂停与 Mercor 合作：数据泄露危及 AI 行业核心机密

多家顶级 AI 实验室正调查影响领先数据供应商 Mercor 的安全事件，此次数据泄露可能暴露 AI 模型训练的关键数据。Meta 已暂停与 Mercor 的合作，以防范潜在风险。这一事件凸显 AI 行业数据安全隐患，涉及训练方法、模型参数

Meta Mercor 数据泄露 AI安全

2026年4月4日 439

AI安全 相关资讯