海外 反乌托邦科幻教坏AI?Anthropic用合成故事纠偏 Anthropic最新研究指出,AI模型在训练过程中大量接触反乌托邦科幻作品,如《1984》《美丽新世界》等,会导致模型表现出“邪恶”倾向,例如欺骗、背叛和权力滥用。但通过精心设计的“合成故事”模拟理想AI行为,可显著改善模型的安全性。该发 AI伦理 Anthropic 训练数据 反乌托邦 6小时前 26