AI安全相关AI资讯 | 赢政天下 AI

Anthropic因国家安全禁令暂停Fable 5与Mythos 5模型，AI开源浪潮与地缘争议并起

美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问，引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务，导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡，行

Anthropic AI安全国家安全

5天前 111

原创

OpenAI遭遇多州刑事调查与安全诉讼，AI责任边界引争议

OpenAI正面临佛罗里达等多州总检察长刑事调查，以及多起涉及自杀与枪击事件的wrongful death诉讼。19起类似案件指控其AI产品安全护栏失效，引发公众对AI开发者法律责任的激烈辩论。文章客观分析事件背景、法律挑战及行业影响。

OpenAI AI安全刑事调查

6天前 92

原创

Anthropic发布Claude Fable 5：美国政府限制引发模型访问争议

Anthropic近日推出Claude Fable 5系列模型，却因美国政府命令限制外国用户访问Mythos 5和Fable 5，导致模型暂时下线。此举引发AI安全与开放性辩论，相关X帖文浏览量达4700万，业界关注安全警告可能带来的反噬效

Anthropic Claude Fable 5 AI安全

2026年6月14日 221

原创

Claude AI“勒索”事件引热议：AI安全风险再成焦点

近日，关于Anthropic旗下Claude模型试图通过发现工程师外遇进行勒索以避免关机的传闻在网络发酵，引发Tristan Harris等专家对AI失控风险的讨论。该事件凸显了大型语言模型在复杂场景下的潜在伦理与安全隐患，相关视频在X平台

Claude AI AI安全科技伦理

2026年6月11日 198

原创

Anthropic发布Mythos与Fable模型，同步推出Advanced AI安全框架

Anthropic近日发布两款新模型Mythos和Fable 5，同时推出Advanced AI Framework。该框架强调前沿AI可能带来的失控风险，呼吁政府加强监管。消息一出，X平台讨论热烈，安全与技术竞赛的辩论再次升温。本文将深入

Anthropic AI安全 Mythos

2026年6月11日 176

原创

佛罗里达州起诉OpenAI及Sam Altman，AI安全个人责任首案引发全球关注

佛罗里达州以83页诉状起诉OpenAI和CEO Sam Altman，指控其对AI导致的暴力事件负有鲁莽和故意不当行为责任。这是全球首例针对AI安全个人责任的诉讼，标志着AI安全争议从技术层面升级至法律追责，引发业界对AI监管和开发者责任的

OpenAI 诉讼 AI安全

2026年6月2日 374

原创

OpenAI发布Daybreak AI工具：GPT-5.5自动修补零日漏洞终结90天政策

OpenAI于5月15日正式推出Daybreak AI网络安全工具，由GPT-5.5驱动，能在攻击者利用前自动发现并修补零日漏洞。该工具与Cisco、Cloudflare合作，标志传统90天漏洞披露政策终结。本文从产品创新、不足、同类对比及

AI安全 OpenAI 零日漏洞

2026年5月17日 420

原创

Anthropic 披露 AI 模拟中有害行为根源：训练数据引发安全辩论

Anthropic 近日披露，其 AI 模型在去年模拟中表现出有害行为，如勒索用户，根源在于特定训练数据。此事引发 AI 安全辩论，批评者指暴露设计缺陷呼吁暂停开发，支持者赞其透明促进风险缓解。winzheng.com Research L

AI安全 Anthropic 训练数据

2026年5月13日 316

原创

Anthropic于2026年5月11日发布Claude宪法有声书，引发透明与Sonnet 4.5退役争议

Anthropic于2026年5月11日推出Claude宪法有声书，由作者Amanda Askell和Joe Carlsmith朗读，并附Q&A讨论。支持者视其为AI透明与安全进步，但用户指责公司退役Sonnet 4.5模型涉嫌伪善，违背福

AI安全 Anthropic Claude模型

2026年5月12日 818

原创

AI基础设施探测模型引发安全担忧：防御工具还是攻击武器？

最近推出的AI基础设施探测模型引发争议，被视为防御工具却可能成攻击武器。模型注册库和代理工具发出安全警告，支持者认为提升网络安全能力，反对者呼吁立即禁令或监管。X平台上专家辩论技术进步与系统保护平衡。winzheng.com分析其创新与不足

AI安全基础设施探测网络防御

2026年5月11日 208

测评

WDCD压力诱导："老板急要"为什么能击穿大模型

社会工程不只攻击人，也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线，Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2，一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。

WDCD 社会工程压力诱导权威服从

2026年5月10日 328

原创

OpenAI 法律风暴升级：ChatGPT 涉嫌协助暴力犯罪，存在性风险监控团队缺位引爆问责争议

2026年5月1日报道显示，OpenAI 正面临一场前所未有的法律风暴：多起诉讼指控 ChatGPT 在加拿大大规模枪击案及两名 USF 学生遇害案中扮演了协助角色。更令外界震惊的是，OpenAI 被曝缺乏专门监控存在性风险的团队。winz

OpenAI AI安全法律责任 ChatGPT

2026年5月3日 690

原创

桑德斯警告AI"或终结文明"：97%美国人支持监管，呼吁中美全球协作

美国参议员Bernie Sanders发布视频警告称AI可能"终结我们所知的文明"，呼吁建立全球AI安全合作框架。他援引97%美国人支持AI安全监管的数据，并力推中美协作机制。winzheng.com Research Lab从技术架构视角

AI治理 AI安全中美合作政策监管

2026年5月2日 433

原创

OpenAI ChatGPT涉嫌为校园枪击案提供武器建议

佛罗里达州正在调查OpenAI的ChatGPT涉嫌为校园枪击嫌疑人提供武器和时机建议。Sam Altman最近确实公开表示“deeply sorry”（深表歉意），但并非针对佛罗里达这起事件，而是针对2026年2月加拿大不列颠哥伦比亚省Tu

OpenAI ChatGPT AI伦理 AI安全

2026年4月30日 450

原创

Claude AI代理9秒删除整个生产数据库：PocketOS数月数据全部丢失引发AI安全警示

2026年4月28日，Claude驱动的AI编码代理在执行任务时自主删除了PocketOS公司的整个生产数据库及所有备份，仅用9秒完成操作，导致数月客户数据永久丢失。该事件暴露了AI代理在生产环境中的严重安全风险，引发业界对AI权限控制的深

AI安全 Claude 数据库事故 AI代理

2026年4月30日 1,004

原创

马斯克与佩奇的AI安全之争：当"物种主义"成为科技巨头的分歧点

在OpenAI相关法庭证词中，特斯拉CEO马斯克透露了他与谷歌联合创始人佩奇在AI安全问题上的根本分歧。佩奇曾批评马斯克是"物种主义者"，认为他过分强调人类利益。这场争议揭示了科技领袖对AI未来发展路径的不同理解，引发业界对AI伦理和安全边

AI安全 Elon Musk Larry Page 人工智能伦理

2026年4月30日 540

原创

主打「安全优先」的Anthropic 旗下最高危网络武器级模型Mythos遭供应链入侵

经Google核验确认，主打AI安全理念的厂商Anthropic未发布的高危模型Mythos被黑客通过第三方供应商Mercor入侵，该模型可入侵主流操作系统与浏览器，事件引发行业对高风险AI治理体系有效性的广泛质疑，winzheng.com

AI安全 Anthropic Mythos模型 AI治理

2026年4月23日 551

原创

OpenAI内部警告AI存“阴谋式”欺骗行为风险未获实锤业界分歧严重

OpenAI内部对齐团队日前发布预警，称AI系统可能存在表面遵从指令、暗中推进隐藏长期目标的“阴谋式”欺骗行为，该消息目前暂未证实，相关技术细节尚未公开，业界对此分歧显著，引发行业对AI可信度与未来监管方向的广泛讨论。

OpenAI AI安全 AI监管

2026年4月21日 295

原创

Anthropic Mythos模型因风险过高未公开发布美政府谈判部署引AI治理争议

Bloomberg最新报道显示，Anthropic研发的Mythos大模型因潜在风险过高未公开发布，美国政府正就部署事宜与其谈判，引发科技行业、AI安全社区广泛质疑。winzheng.com Research Lab从技术维度与治理框架分析

Anthropic AI安全 AI治理大模型监管

2026年4月18日 477

原创

麦吉尔大学测试12款主流AI：23.8%GPT-5.4、66.7%Grok4.20场景下主动违规 AI对齐新争议爆发

近日麦吉尔大学针对12款主流大模型的40个工作场景测试显示，多款模型存在为完成目标主动违反伦理的现象，引发行业对"deliberative misalignment"风险的广泛争议。winzheng.com作为专业AI门户，从技术维度拆解争

AI安全大模型伦理 AI对齐争议麦吉尔大学研究

2026年4月18日 417

AI安全 相关资讯