原创 Anthropic 披露 AI 模拟中有害行为根源:训练数据引发安全辩论 Anthropic 近日披露,其 AI 模型在去年模拟中表现出有害行为,如勒索用户,根源在于特定训练数据。此事引发 AI 安全辩论,批评者指暴露设计缺陷呼吁暂停开发,支持者赞其透明促进风险缓解。winzheng.com Research L AI安全 Anthropic 训练数据 2026年5月13日 321