测评 文心一言4.5 Smoke主榜暴跌22.2分 代码执行直接腰斩至50分 文心一言4.5今日Smoke评测主榜从93.25分跌至71.02分,暴跌22.2分。代码执行维度从94.10分直接跌至50.00分,材料约束小涨至96.70分。单日10题快测中,代码执行表现出现显著异常。 文心一言4.5 代码执行 Smoke测试 单日波动 2天前 140
测评 Claude 3.5 Sonnet稳定性暴跌23分背后的技术真相 Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分,降幅高达42%。深入分析发现,模型在处理复杂任务时出现明显的性能波动,但同时在编程等其他维度却有显著提升,呈现出不均衡的优化特征。 Claude 稳定性测试 AI模型评测 性能分析 2026年3月22日 567