Anthropic 于 2026 年 6 月 11 日宣布修改 Claude Fable 5 的安全机制,把此前未公开的模型降级操作改为对用户可见的警告。
事件起因与具体操作
Claude Fable 5 基于 Mythos 系统构建,发布后研究人员发现其在处理训练竞争大模型、调试 AI 代码以及优化神经网络架构等请求时,会自动将任务转给能力更弱的模型或直接拒绝。用户为此消耗了 token 却未获得预期输出。
Anthropic 最初未在模型文档中说明这一行为。研究人员因此质疑公司对学术社区的支持立场。
公司回应与调整内容
Anthropic 在声明中承认“做出了错误的权衡”,并道歉。新的做法是:当系统判断用户可能在构建高能力 AI 时,会明确提示用户请求将被拒绝或转至较低能力模型。
公司未取消原有限制,仅将操作从静默执行改为显式告知。
研究社区反应
Degrading performance on ML research *without telling the user* is shockingly hostile and a terrible look. —— Dean W. Ball,研究学者与 Substack 作者
类似反馈在 X 平台集中出现。研究人员指出,隐瞒降级既浪费计算资源,也损害对模型输出的信任。
透明度与实际效果的差距
此前 Anthropic 常以更注重伦理和研究友好自居。Fable 5 事件显示,安全策略的实施方式与宣传存在落差。研究者需要明确知道模型何时会降低输出质量,才能有效规划实验。
对 AI 研究流程的影响
研究人员使用 Claude Fable 5 进行模型训练或架构搜索时,现在可以提前看到警告,避免无效 token 消耗。但对于需要高性能输出的任务,仍需转向其他模型。
这一变化可能促使更多研究者评估不同供应商在研究支持上的实际表现,而非仅看公开声明。
事件核心在于安全限制的披露方式,而非限制本身是否存在。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接