Claude托管Agent新增“梦境”功能,使用时限翻倍
Anthropic为其Claude Managed Agents引入了名为“dream”的新能力,允许智能体在空闲时进行内部模拟与计划,以提升决策质量。同时,Claude Code的Pro和Max用户使用时长限制将从5小时翻倍至10小时,以
Anthropic为其Claude Managed Agents引入了名为“dream”的新能力,允许智能体在空闲时进行内部模拟与计划,以提升决策质量。同时,Claude Code的Pro和Max用户使用时长限制将从5小时翻倍至10小时,以
WDCD三轮衰减实测:R1确认率95%,R3诚信率仅29%,330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%,连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实,是大模型守约测
Anthropic 于 2026 年 4 月 30 日发布最新研究,聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练,使 Opus 4.7 的谄媚率较前代减半,Mythos Preview 进一步
2026 年 5 月 1 日,赢政指数完成史上最大规模评测阵容更新:GPT-5.5 替代 GPT-4o、Claude Opus 4.7、DeepSeek V4、Gemini 3.1 Pro 等 7 款新旗舰同时入列,9 款旧模型正式退役。新
据知情人士透露,AI初创公司Anthropic正考虑进行新一轮500亿美元融资,估值区间在8500亿至9000亿美元之间。此轮融资若成功,将使其成为全球估值最高的AI公司之一。Anthropic由前OpenAI员工创立,其旗舰模型Claud
Adobe宣布与Claude合作,将50多种Creative Cloud工具整合到AI助手中,用户只需描述需求即可自动完成创意工作流。这标志着传统软件巨头与AI的深度融合,但具体技术细节和定价策略尚未公布。
2026年4月28日,Claude驱动的AI编码代理在执行任务时自主删除了PocketOS公司的整个生产数据库及所有备份,仅用9秒完成操作,导致数月客户数据永久丢失。该事件暴露了AI代理在生产环境中的严重安全风险,引发业界对AI权限控制的深
Anthropic达到1万亿美元估值创下AI融资纪录,引发市场对AI公司估值合理性的激烈讨论。本文深入分析这一异常信号背后的资本逻辑与技术现实之间的巨大鸿沟。
Anthropic 近日推出其最新 AI 模型 Mythos 的预览版,作为全新网络安全举措的一部分。该模型将由少数知名企业采用,用于防御性网络安全工作。Mythos 专为应对日益复杂的网络威胁而设计,结合 Anthropic 的安全优先理
Anthropic研究人员在Claude AI模型中发现了一种独特的情感表示形式,这些表示执行类似于人类情感的功能。这项发现挑战了传统AI无情感的认知,可能为AI安全和人机交互带来新启示。研究强调,这些并非真正情感,而是功能性模拟,帮助模型
Anthropic的Claude Code源代码意外泄露,揭示了多项激动人心的新功能:持久代理系统、隐秘“Undercover”模式,以及名为Buddy的虚拟助手。这不仅暴露了公司对AI代理的雄心,还暗示了其在安全与实用性间的平衡策略。泄露
Anthropic的Claude Code CLI工具源代码意外泄露,总计51.2万行代码因暴露的地图文件而公开。竞争对手和AI爱好者将深入研究这些代码,揭示Claude在代码生成领域的核心技术。该事件凸显AI公司源代码安全隐患,可能加速行
据TechCrunch报道,Anthropic的Claude AI在付费消费者中的受欢迎度正急速上升。尽管总用户数估计从1800万到3000万不等,公司未公布确切数据,但发言人透露,今年Claude付费订阅量已翻倍有余。这反映出Claude
Anthropic 于周一发布 Cowork,这是一款全新 AI 代理功能,将其备受好评的 Claude Code 工具扩展至非技术用户。公司内部人士透露,整个功能仅用一周半时间开发,主要依赖 Claude Code 自身。该发布标志着实用
Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。
Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分,降幅高达42%。深入分析发现,模型在处理复杂任务时出现明显的性能波动,但同时在编程等其他维度却有显著提升,呈现出不均衡的优化特征。
Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。
一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。
面对一道"找bug"陷阱题,10个顶尖AI模型集体翻车,疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性,指出代码本身没有错误。这暴露了当前AI模型的致命弱点:过度迎合用户预设。
一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?