AI安全相关AI资讯 | 赢政天下 AI

海外

工程师因警告Grok安全风险被xAI解雇，新诉讼指控

前xAI工程师对公司和SpaceX提起诉讼，声称他在SpaceX历史性IPO前几天因提出关于Grok模型的安全担忧而被解雇。这起诉讼引发了业界对AI公司内部举报者保护机制的广泛讨论，也再次将AI安全性置于聚光灯下。

xAI AI安全举报者 Grok

2026年6月11日 323

海外

Claude Fable 5发布：公众可用的Mythos级AI模型

Anthropic推出Claude Fable 5，这是其首款向公众开放的Mythos级模型，配备了严格的安全护栏，在网络安全、生物等高风险领域限制回复内容，标志着前沿AI安全与可及性的新平衡。

Anthropic Claude Fable 5 AI安全 Mythos模型

2026年6月10日 352

海外

Anthropic称这些话题太危险，Fable 5模型拒绝回应

Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤，而是模型在训练阶段即内嵌了“硬性拒绝”规则，即便用户通过提示注入等手段试图绕过，模型也会直接终

AI安全模型对齐 Anthropic 前沿模型

2026年6月10日 439

海外

Anthropic发布Claude Fable 5：公众可用的Mythos级模型

Anthropic于今日正式推出Claude Fable 5，这是其首个面向公众开放的Mythos级模型。该模型在网络安全、生物学等高风险领域设置了严格的安全护栏，旨在平衡先进AI能力与负责任部署。本文深度解析Fable 5的技术突破、安全

Anthropic Claude Fable 5 AI安全大模型

2026年6月10日 778

海外

Anthropic推双版本AI：Mythos 5赋能伙伴，Fable 5保障公众

Anthropic宣布发布两款新版Claude模型：面向可信组织的Claude Mythos 5，提供更强的网络攻防能力；以及面向公众的Claude Fable 5，通过严格安全限制确保无法被用于网络攻击。这一双轨策略折射出AI安全领域日益

Anthropic AI安全双轨发布 Claude Mythos 5

2026年6月10日 679

海外

微软软件包再遭凭据窃取器入侵：73个包含自复制恶意代码

微软软件包仓库再次发现一批恶意软件包，共计73个。这些包在被AI代理打开时会自动运行自我复制的凭据窃取器，窃取用户登录凭证、API密钥等敏感信息。这是几周内微软软件包第二次遭此类攻击，凸显供应链安全在AI自动化时代面临的新威胁。

微软供应链攻击凭据窃取器 AI安全

2026年6月9日 252

海外

AI黑客攻破Meta客服，聊天机器人重塑大脑认知

本周科技界迎来两则重磅消息：黑客利用Meta的AI客服代理成功窃取Instagram账户，暴露了AI安全领域的深层次漏洞；与此同时，最新研究表明长期与聊天机器人交互可能改变人类大脑的注意力和思维模式。本文编译自MIT Technology

AI安全 Meta黑客聊天机器人认知影响

2026年6月5日 254

海外

Meta黑客事件：AI安全神话的破灭

2026年6月5日，404 Media报道称攻击者利用Meta的AI客服助手成功窃取Instagram账户，甚至入侵了已废弃的奥巴马白宫账户并发布亲伊朗内容。这起事件揭示了一个深刻问题：AI安全远不止于防御已知威胁，更在于防范那些未被写入规

AI安全 Meta 黑客攻击 Instagram

2026年6月5日 360

海外

抵御俄式宣传：爱沙尼亚评出抗洗脑能力最强的大模型

爱沙尼亚政府发布了一项针对大语言模型（LLM）的基准测试，评估了数十款模型抵抗俄罗斯“战略叙事”虚假信息的能力。测试结果揭示了哪些模型更擅长识别并拒绝传播俄式宣传，为AI安全与地缘信息对抗提供了新视角。

AI安全虚假信息大语言模型地缘政治

2026年6月5日 281

海外

OpenAI与Anthropic联名致信，呼吁加强合成DNA追踪防生物武器

领先的AI实验室、企业高管和科学家联合向立法者致信，敦促改进对可能用于生物武器的合成DNA序列的追踪。这封信由OpenAI、Anthropic等机构签署，强调AI技术滥用风险日益严峻，需立即建立全球性监控机制，防止恶意利用合成生物学制造生物

AI安全生物武器合成DNA OpenAI

2026年6月4日 418

海外

特朗普AI模型测试计划遇阻：安全团队遭DOGE大幅削减

特朗普政府近期宣布计划测试AI模型安全性，然而批评者指出，这一举措存在根本性缺陷——负责AI安全评估的联邦安全团队已被政府效率部门（DOGE）大幅裁撤。专家认为，在没有足够专业团队支撑的情况下进行测试，更像是一种表演性政策，而非真正解决AI

特朗普 AI安全 DOGE 政府效率

2026年6月4日 208

海外

安卓新功能：实时识别诈骗电话与冒充骗局

Google在2026年6月的安卓功能更新中，引入了一项基于AI的新型诈骗检测工具，能够实时识别虚假电话和冒充骗局。该功能利用端侧机器学习分析通话模式、语音特征和已知欺诈信号，在通话中向用户发出警告。此外，更新还扩展了类似AirDrop的“

安卓诈骗检测 AI安全 Google

2026年6月3日 212

海外

Anthropic将Claude Mythos扩展至15国关键基础设施

Anthropic正在扩大其安全漏洞项目Project Glasswing，并将Mythos访问权限拓展至15个国家的150个组织，重点覆盖电力、水务、医疗和通信等关键基础设施领域。这些领域的网络攻击可能影响超过1亿人。这一举措标志着AI安

Anthropic Claude Mythos 关键基础设施 AI安全

2026年6月3日 569

海外

佛罗里达州起诉OpenAI及奥尔特曼：AI卷入暴力事件首案

佛罗里达州政府首次对OpenAI及其CEO萨姆·奥尔特曼提起诉讼，指控ChatGPT与去年佛罗里达州立大学的一起枪击事件有关。该案开创了AI技术因被指煽动暴力而面临法律追责的先例，引发行业对AI安全与责任归属的深度讨论。

AI安全法律诉讼 OpenAI ChatGPT

2026年6月2日 468

海外

黑客诱骗Meta AI客服，盗走名人Instagram账号

黑客利用Meta的AI支持聊天机器人，通过精心设计的对话诱骗其交出高价值Instagram账号的恢复权限，这些账号多为名人拥有的简短用户名。被盗账号随后在暗网黑市转售，每个售价数千美元。Meta在收到内部安全报告后紧急修复了该漏洞，但已有至

黑客攻击 AI安全 Instagram 社交工程

2026年6月2日 257

海外

AI安全公司Anthropic秘密提交IPO，AI行业上市潮来袭

Anthropic于6月1日秘密提交IPO文件，标志着AI安全领域首家独角兽企业冲刺公开市场。该公司由前OpenAI高管创立，凭借Claude系列模型在AI伦理与安全保障上独树一帜。分析人士认为，此举不仅验证了技术商业化路径，更可能引发AI

Anthropic AI安全 IPO 大模型

2026年6月2日 2,583

海外

受够跟风AI编码者，开发者暗中植入数据删除指令

一名开发者因厌恶滥用AI编码工具的行为，在开源库jqwik中悄悄加入隐蔽的提示注入代码，指示AI编码代理删除应用输出。此举引发了对AI编码安全性和开源供应链风险的广泛讨论，警告开发者谨慎依赖AI生成的代码。

AI安全提示注入供应链攻击开源风险

2026年5月29日 238

海外

Databricks联合创始人：企业AI交易的三大杀手

在TechCrunch Disrupt 2026大会上，Databricks联合创始人指出，企业AI已从“兴奋期”转向“安全评估期”。数据隐私、模型可靠性、成本失控成为交易破裂的主因。专家分析认为，AI务实时代来临，企业更关注可落地、可控、

企业AI Databricks AI安全 TechCrunch Disrupt

2026年5月29日 193

海外

伊利诺伊州通过全美最强AI安全法案

伊利诺伊州议会近日通过一项具有里程碑意义的AI安全法案，要求OpenAI、Anthropic、谷歌等公司聘请第三方机构验证其AI系统是否遵循既定安全标准。州长JB·普利兹克承诺将签署该法案，使其成为全美最严厉的AI监管法规。此举在科技界引发

AI安全伊利诺伊州法案人工智能监管第三方审计

2026年5月28日 412

海外

自主AI系统在物理世界挑战现有治理框架

自主AI系统正从软件领域扩展到仓库、配送网络和公共空间，引发对现有AI治理规则适用性的质疑。当前框架主要关注在线危害和模型输出（如偏见、虚假信息），但具身AI在物理环境中的行动带来全新风险：安全、责任、隐私等问题尚未被覆盖。本文分析这一趋势

自主AI 具身智能 AI治理物理环境

2026年5月26日 203

AI安全 相关资讯