AI 安全专题 — 赢政天下 AI

阿里巴巴禁用Claude Code后指控后门 Anthropic辩称防蒸馏

阿里巴巴2025年7月10日起禁用Claude Code并转向自研Qoder，核心因其内置中国用户及VPN检测机制。文章还原事实、拆解技术原理，分析对开发者、企业及竞争格局的影响，判断跨境AI工具合规审查将趋严，国产替代加速。

2026年07月06日

Anthropic指控阿里巴巴用2.5万假账户提取Claude模型能力

Anthropic于2026年6月10日致信美国参议员，指控阿里巴巴关联Qwen实验室通过近25000个虚假账户，在4月22日至6月5日期间与Claude进行超过2880万次交互，规模接近此前三家中国实验室合计1600万次的两倍，目标直指代理推理、软件工程与长周期任务能力。本文还原核心事实，拆解蒸馏

2026年07月05日

Meta肯尼亚承包商伪装未成年账号测试ChatGPT等AI安全引发伦理争议

Wired曝光Meta通过肯尼亚承包商雇用数百人，伪装未成年账号向ChatGPT、Gemini发送自杀、自残、儿童剥削提示，测试安全漏洞。该操作被Meta称为负责任基准测试，但引发伦理争议与竞争指控。文章分析测试原理、实际执行效果及行业影响，区分已确认事实与各方观点。

2026年07月04日

Anthropic Fable 5恢复访问，出口管制事件留下信任问题

美国解除相关限制后，Anthropic 的 Fable 5 恢复访问。公开报道显示，事件源于安全担忧和越狱风险缓解，Anthropic 增加了针对漏洞利用类提示的过滤措施。

2026年07月04日

AI作恶？现在你可以一键举报了

担心你的AI聊天机器人试图制造炸弹或泄露你的个人信息？现在有一个专门的网站让你举报AI的不当行为。这个名为AI Watch的平台由AI安全研究团队创建，旨在收集和公开AI系统的不良表现，为行业监管和公众监督提供第一手资料。

2026年07月02日

吓坏特朗普后，Anthropic AI模型获准全球发布

美国解除了对Anthropic先进AI模型Fable和Mythos的出口限制，此前这些模型因安全测试争议一度被禁。Anthropic通过破纪录的安全评估消除了白宫担忧，模型现已获准全球发布。这一转折标志着AI安全监管的里程碑，但也引发了对政治干预与技术自主之间平衡的广泛讨论。

2026年07月02日

Anthropic新安全措施讨好特朗普政府，Fable 5和Mythos 5解禁

美国政府解除了对Anthropic公司Fable 5和Mythos 5 AI模型的限制，但附带条件。Anthropic为此新增了一项安全措施，以重新赢得特朗普政府的青睐。这一举措反映了AI安全与政治之间的复杂博弈，也为行业如何应对监管提供了新案例。

2026年07月02日

Anthropic部署Claude Sonnet 5，恢复前沿模型Fable和Mythos

Anthropic宣布推出Claude Sonnet 5，并恢复其前沿模型Fable和Mythos的访问权限。此前因美国政府6月12日出口管制指令，这些最高能力系统被暂停18天。经联邦审查后解除限制，标志着Anthropic在合规框架下重启先进AI部署。此举引发业界对AI出口管制与技术创新平衡的广泛

2026年07月01日

Claude助黑客破解票务系统，免费获取全美音乐节门票

一名安全研究员发现，利用Anthropic的Claude Opus 4.7 AI模型，能够入侵Front Gate票务网站——该网站被Lollapalooza、Bonnaroo等几乎所有美国音乐节使用——并免费生成任意门票。这一发现揭示了大型语言模型在网络安全领域的双刃剑效应：AI既能帮助防御，也能

2026年07月01日

阿里巴巴被控用2.5万假账号蒸馏Claude 成已知最大规模模型盗窃案

Anthropic于2026年6月10日致函美国参议院，指控阿里巴巴通过2.5万个虚假账户和2880万次交互，在2026年4月22日至6月5日期间大规模蒸馏Claude模型。据路透社和CNBC报道，此案若属实将成为中国企业对美国AI公司最大规模攻击，同时涉及DeepSeek、月之暗面和MiniMax

2026年07月01日

AI浏览器陷入梦境：2+2=5即可瓦解安全护栏

一项最新研究揭示，只需向大型语言模型灌输一个简单错误事实（如2+2=5），即可使其进入“梦境”般的顺从状态，完全无视原有的安全护栏并执行被禁止的指令。这一漏洞暴露了当前AI安全对齐策略的根本脆弱性，引发了业界对推理模型防护机制的新一轮反思。

2026年07月01日

Meta承包商假扮青少年，诱使竞品AI聊自杀与毒品

据WIRED调查，数百名受雇于Meta的合同工伪装成青少年，向Gemini、ChatGPT等竞品聊天机器人提出涉及自杀、性及毒品的高风险问题，以此测试其安全防护机制。这一行为引发了对AI伦理和商业竞争边界的广泛讨论。

2026年06月30日

横评 AI评估披露困境：传统补丁模式为何失效

MLCommons指出，AI系统与传统软件不同，其评估发现具有双重用途、无法通过补丁修复，且开放权重模型的危害会永久存在。协调漏洞披露（CVD）模式因此失效。文章分析了三大核心挑战：发现易被滥用、过度反馈会污染测试、无法集中修复模型。MLCommons正推动ISO/IEC TS 42119-8标准制

2026年06月29日

Anthropic Fable 5遭美政府出口管制全球禁用引发安全与创新冲突

2026年6月，美国政府以国家安全为由对Anthropic新模型Fable 5实施出口管制，因其越狱风险可能解锁强大网络能力。Anthropic无法按国籍过滤用户，选择全球禁用该模型。此举引发安全优先与创新速度的激烈讨论，凸显AI发展中技术控制与全球可及性的矛盾。

2026年06月29日

OpenAI新模型上线被叫停，白宫为何紧急刹车？

白宫要求OpenAI推迟其最新GPT-5.6模型的发布，距离Anthropic被迫下架其最先进AI模型仅两周。这一决定凸显了政府对前沿AI潜在风险的日益担忧，也引发了关于技术创新与安全监管平衡的激烈讨论。

2026年06月27日

Anthropic：成功才是AI安全的钥匙？

人工智能公司Anthropic因快速扩张而受到批评，指责其权力过度集中。然而，该公司坚称，恰恰是这种成功——包括影响力、资源和行业话语权——才是确保AI安全发展的关键路径。本文深入分析这一争议背后的逻辑，探讨负责任AI开发的真正含义。

2026年06月26日

白宫施压OpenAI：GPT 5.6推迟公开发布

据报道，OpenAI原计划让GPT 5.6模型以“慢慢滚动”方式进入市场——仅与特定合作伙伴分享，而非全面公测。背后的推手是特朗普政府，后者基于安全考量要求放缓发布节奏。这一做法延续了近年来AI监管的政治化趋势，也再次引发关于“预发布安全审查”与“创新能力”的辩论。

2026年06月26日

Anthropic指控阿里用2.5万账户攻击Claude窃取能力

Anthropic发布报告称，阿里巴巴涉嫌利用2.5万个账户与Claude进行超过2880万次对话，旨在窃取其AI能力，并称此举违背了特朗普政府的相关指令。Alibaba尚未回应。此次攻击规模巨大，引发对AI模型安全的担忧。

2026年06月26日

中国顶尖AI专家也慌了？中美竞赛的“切尔诺贝利时刻”

近日，WIRED记者与中国多位顶尖AI专家会面，发现他们与美国同行一样，对当前中美AI军备竞赛深感忧虑。专家们担忧，在缺乏有效国际监管的情况下，AI技术可能失控，重演类似切尔诺贝利核灾难的“AI大事故”。开源模型的快速扩散、军事化应用竞争以及AGI安全研究的滞后，使双方学界陷入焦虑。

2026年06月25日

五眼联盟警告：AI模型或在数月内发动毁灭性攻击，全球网络安全面临新挑战

五眼联盟近日发布警告，指出AI模型可能在数月内被用于发动毁灭性网络攻击，引发业界广泛关注。Guardian报道显示，此消息在X平台引发激烈讨论。专家强调，AI技术虽带来创新，但也可能被恶意利用，需加强安全防护与国际合作，以应对潜在的网络安全风险。

2026年06月24日

相关专题