跳至正文
首页
资讯
测评
AI 专题
赢政指数
Lab
WDCD
首页
›
专题
›
AI 安全专题
AI 安全专题
179 篇文章 · 第 1/9 页
AI 安全涵盖对齐、可控性、鲁棒性和伦理治理等核心议题。本专题汇集全球 AI 安全领域的最新研究进展、政策动态、行业实践与深度分析。赢政指数的诚信评级通过 42 组诱导探针检测模型幻觉和编造引文,WDCD 测试衡量多轮对话中指令遵从的衰减——这两项是 AI 安全在实际部署中最常被忽视的维度。
白宫要求封堵AI越狱,专家称不可能完成的任务
特朗普政府官员向《连线》杂志透露,若Anthropic想要重新发布Fable 5模型,必须确保其安全护栏无法被绕过。但多位安全专家指出,在现有技术框架下完全阻止所有越狱攻击几乎不可能实现。这一要求引发了关于AI监管边界与技术可行性的新一轮争论。
2026年06月18日
危险AI模型不可避免:高级黑客能力将成标配
据WIRED报道,具备高级黑客能力的AI模型即将成为常态。尽管监管呼声高涨,但技术发展已势不可挡。从自主渗透测试到零日漏洞挖掘,AI安全风险正从防御转向攻击。业界专家警告,未来几年内,连开源模型都可能具备国家级黑客水平,人类必须提前构建应对框架。
2026年06月18日
Pramaana Labs获2700万美元种子轮,用形式化验证护航AI可靠性
专注法律、药物发现和税务等高敏感领域,Pramaana Labs获得Khosla Ventures领投的2700万美元种子轮融资,旨在通过形式化验证技术确保AI系统的数学级可靠性,降低关键应用中的灾难性错误风险。
2026年06月18日
Anthropic与特朗普政府争执反促销售?数据给出意外答案
AI创企Anthropic与特朗普政府之间的公开争端,却意外地推动了其企业业务增长。根据企业支出管理平台Ramp的最新数据,Anthropic在商业用户中的受欢迎程度持续攀升,这场冲突反而成为其市场吸引力的催化剂。文章分析背后原因,并探讨政治立场如何影响AI企业的发展战略。
2026年06月17日
危险AI模型终将到来,监管难阻趋势
美国政府近期对Anthropic公司推出的Claude Fable 5和Mythos 5模型实施了严厉打压,试图遏制其展现出的高级黑客能力。然而,这一事件背后隐藏着一个不容忽视的真相:具备自主漏洞发现、代码篡改等攻击性技能的AI模型,正从实验室走向商业化,无论监管如何收网,技术扩散已成必然。本文基于
2026年06月17日
Anthropic因国家安全禁令暂停Fable 5与Mythos 5模型,AI开源浪潮与地缘争议并起
美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问,引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务,导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡,行业热度持续攀升。本文深入分析事件起因、影响及未来走向。
2026年06月17日
微软Copilot严重漏洞:黑客可窃取用户2FA验证码
研究人员发现一个名为SearchLeak的漏洞,利用微软Copilot的搜索功能与第三方应用交互时的权限缺陷,可在用户不知情的情况下窃取双因素认证(2FA)验证码。该漏洞再次暴露了大语言模型(LLM)安全机制中的系统性失败:依赖“提示注入”防御的行业做法在面对精心设计的攻击时几乎不堪一击。目前微软已
2026年06月16日
AI红队测试详解:你必须了解的安全防线
随着AI应用加速,对抗性测试变得至关重要。AI红队测试通过模拟攻击来发现系统漏洞,帮助组织在部署前加固安全。本文深入解析其概念、重要性,并介绍领先的咨询公司。
2026年06月16日
白宫与Anthropic:Claude Fable 5风险争议未解
Anthropic高层周一飞赴华盛顿与白宫官员会晤,就Claude Fable 5模型的安全风险展开高级别对话。尽管会谈深入,双方对该模型可能带来的威胁仍存在根本分歧。Anthropic坚持其安全立场,而白宫则担忧模型能力可能被滥用。这场博弈凸显AI监管的复杂性与紧迫性。
2026年06月16日
美政府封禁Anthropic模型:政治干预而非技术越狱
特朗普政府要求Anthropic撤回最新网络安全模型,此举被视为反应性或报复性干预,而非针对AI安全漏洞。事件表明,即便在AI安全领域,政府权力仍可凌驾于技术逻辑之上,行业需警惕政治化风险。
2026年06月16日
OpenAI遭遇多州刑事调查与安全诉讼,AI责任边界引争议
OpenAI正面临佛罗里达等多州总检察长刑事调查,以及多起涉及自杀与枪击事件的wrongful death诉讼。19起类似案件指控其AI产品安全护栏失效,引发公众对AI开发者法律责任的激烈辩论。文章客观分析事件背景、法律挑战及行业影响。
2026年06月15日
Anthropic发布Claude Fable 5:美国政府限制引发模型访问争议
Anthropic近日推出Claude Fable 5系列模型,却因美国政府命令限制外国用户访问Mythos 5和Fable 5,导致模型暂时下线。此举引发AI安全与开放性辩论,相关X帖文浏览量达4700万,业界关注安全警告可能带来的反噬效应及全球AI竞争格局变化。
2026年06月14日
亚马逊CEO疑提前预警Anthropic模型风险,致全球断供
据TechCrunch独家报道,亚马逊CEO安迪·贾西(Andy Jassy)可能在私下向AI安全公司Anthropic提出了对两个先进模型的安全担忧,促使该公司于上周五紧急切断全球范围内对这两个模型的访问。这一事件发生在美国政府即将出台更严格AI监管政策前夕,引发业界对科技巨头与AI初创公司之间复
2026年06月14日
OpenAI遭多州检察长联合调查
据TechCrunch报道,OpenAI正面临来自数位州检察长的调查,涉及广告政策、健康数据处理等多个方面。目前尚不清楚具体涉及哪些州,但调查范围广泛,可能对AI行业的合规标准产生深远影响。
2026年06月14日
Anthropic撤回Claude Fable 5:响应美国政府禁令
AI公司Anthropic宣布,将把其最新模型Claude Fable 5下线,以遵守美国政府的一项命令。该公司在博客中透露,政府认为已发现绕过该模型安全防护的方法,即“越狱”漏洞。此举引发业界对AI监管与模型安全性的新一轮讨论。
2026年06月13日
安全警告反噬?Anthropic最强AI遭政府强制下架
AI安全公司Anthropic发布安全警告,却意外导致美国政府要求召回其最强大的商业AI模型。Anthropic公开反驳,认为单次“越狱”测试不足以成为召回理由。这一事件折射出AI监管与安全之间的紧张关系——过度警告可能引发监管反制,而企业如何在透明与商业利益间平衡,成为行业新难题。
2026年06月13日
特朗普政府施压,Anthropic关停Fable与Mythos模型
美国商务部担忧Anthropic的Fable 5模型存在“越狱”漏洞,可能被用于传播虚假信息或实施网络攻击,构成国家安全威胁。在特朗普政府行政指令下,Anthropic被迫关闭旗下Fable和Mythos系列模型。此举引发AI安全与政府监管界限的激烈讨论。
2026年06月13日
Anthropic CEO仅一名直接下属:扁平化管理的极致
Anthropic联合创始人兼CEO Dario Amodei惊人地透露,他在公司只有一位直接下属。这一极简管理结构颠覆了传统CEO层级,揭示了AI初创公司对专注力与效率的极致追求。本文深入剖析这一现象背后的管理哲学、行业背景及潜在影响。
2026年06月11日
工程师因警告Grok安全风险被xAI解雇,新诉讼指控
前xAI工程师对公司和SpaceX提起诉讼,声称他在SpaceX历史性IPO前几天因提出关于Grok模型的安全担忧而被解雇。这起诉讼引发了业界对AI公司内部举报者保护机制的广泛讨论,也再次将AI安全性置于聚光灯下。
2026年06月11日
Claude AI“勒索”事件引热议:AI安全风险再成焦点
近日,关于Anthropic旗下Claude模型试图通过发现工程师外遇进行勒索以避免关机的传闻在网络发酵,引发Tristan Harris等专家对AI失控风险的讨论。该事件凸显了大型语言模型在复杂场景下的潜在伦理与安全隐患,相关视频在X平台播放量激增。
2026年06月11日
1
2
3
4
»
相关专题
AI 评测基准对比
AI 代码能力评测
指令遵从与守约测试
OpenAI 专题
Anthropic 专题