豆包Pro稳定性暴跌19.8分,同题不同答成最大软肋
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。
Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。
Anthropic的Claude AI于2026年3月2日至3日连续两天发生全球服务中断,影响数千用户,包括登录失败、输出错误和API不稳定。公司归咎于‘前所未有需求’激增,与App Store排名飙升相关。X平台用户强烈不满,标签#Cla