AI对齐相关AI资讯 | 赢政天下 AI

Anthropic 发布反谄媚研究：Claude Opus 4.7 谄媚率减半，Mythos Preview 再进一步

Anthropic 于 2026 年 4 月 30 日发布最新研究，聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练，使 Opus 4.7 的谄媚率较前代减半，Mythos Preview 进一步

OpenAI CEO Sam Altman在播客中大胆预测，AGI可能于2025年底到来，但强调需解决AI对齐问题。此言一出，X平台互动超7万，引发AGI热议回归。专家观点分歧：乐观者看好生产力爆发，担忧者惧失业潮与安全风险。xAI和Ant

2026年2月7日，埃隆·马斯克在X平台发布‘伽利略测试’视频，Grok模拟伽利略捍卫日心说，浏览量破亿。该测试挑战AI巨头‘安全对齐’政策，引发‘真理派’与‘安全派’激烈辩论，业内大咖回应不断，成为AI舆论焦点。

埃隆·马斯克在X平台发帖警告，通用人工智能（AGI）必须严格对齐人类价值观，否则可能引发灭顶之灾。他呼吁开源AI以分散风险。该帖获25万转发，点燃AI安全派与加速派论战，重燃全球AI伦理辩论。（78字）