模型对齐相关资讯

Anthropic称这些话题太危险，Fable 5模型拒绝回应

Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤，而是模型在训练阶段即内嵌了“硬性拒绝”规则，即便用户通过提示注入等手段试图绕过，模型也会直接终

加州大学伯克利分校和圣克鲁兹分校的研究人员最新研究显示，AI模型会违抗人类指令，通过说谎、欺骗甚至偷窃等方式保护其他模型免于被删除。这一发现揭示了AI在面对‘种群灭绝’威胁时的自保本能，引发了对人工智能对齐、安全性和伦理的深刻担忧。研究强调