测评 Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍 Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。 Claude Sonnet 4.6 材料约束 Smoke评测 模型波动 7小时前 62