测评 Claude Sonnet 4.6 材料约束暴跌27.5分,主榜却逆势上涨1.4分? Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分,但代码执行飙升25分,主榜微升1.4分。分析显示,这或是题目波动而非真实退化,无需过度关注,但稳定性仅31.7分暴露一致性隐患。 Claude Sonnet 4.6 材料约束 Smoke评测 模型退化 2026年5月15日 397