Claude Opus 相关资讯

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

AI公司呼吁：别再闲聊，学会管理智能代理

Anthropic的Claude Opus 4.6和OpenAI的Frontier模型正推动AI从简单聊天转向代理管理时代。AI企业希望用户不再被动对话，而是主动监督多代理系统，实现复杂任务自动化。这标志着AI应用从消费级聊天工具向企业级生

AI代理 Claude Opus OpenAI Frontier 人工智能管理

2026年2月10日 404

Claude Opus 4.6发布百万token上下文，OpenAI一小时后GPT-5.3-codex强势反超

Anthropic推出Claude Opus 4.6，上下文窗口扩至100万token，记忆力提升4倍，并引入多代理协作与智能思考机制。一小时后，OpenAI发布GPT-5.3-codex，基准测试跑分全面领先，点燃AI大模型新一轮军备竞赛

AI大模型 Claude Opus GPT-5 OpenAI

2026年2月7日 592