Claude Opus 4.6稳定性暴跌22.5分:输出格式混乱引发关注
Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。
Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。
一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。
面对一道"找bug"陷阱题,10个顶尖AI模型集体翻车,疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性,指出代码本身没有错误。这暴露了当前AI模型的致命弱点:过度迎合用户预设。
一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?
过去48小时X平台最热门AI产品是Anthropic的Claude系列(尤其是Claude Code、Claude Cowork)。用户疯狂分享Claude在代码重构、代理构建、上下文工程、自动化工作流中的实战案例,多个帖子获数千点赞、上万
过去48小时X平台AI圈最大争议:Anthropic指控DeepSeek、Moonshot AI、MiniMax等中国公司创建2.4万假账户、发起1600万次交互,对Claude模型进行系统性“蒸馏攻击”,窃取代理推理、工具使用等核心能力。
去48小时,X平台上AI政治偏见争议再度爆发。Elon Musk多次发帖并引用对比,强调Grok在敏感议题(如卡车司机抗议、白人特权、特朗普评价)上更“直球诚实”,而ChatGPT、Claude等被他贴上“woke and sanctimo
Anthropic发布33页Claude Skills构建指南,教你将重复指令打包成文件夹,让Claude一次学会终身受用。Skills如菜谱,指导Claude处理PPT生成、项目流程自动化等任务。指南强调渐进加载、脚本校验等设计,覆盖结构
2026年2月12日,Anthropic宣布完成300亿美元融资,投后估值飙升至3800亿美元,刷新AI行业纪录。然而,Elon Musk迅速回复官方公告,批评其AI存在对白人和亚裔的偏见,此帖互动量爆表,浏览超80万,成为当日AI话题焦点