测评 Claude Sonnet 4.6代码执行暴跌25分:模型退化还是评测假象? Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分,主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示,这可能是抽签波动而非真实退化,但结合近期Anthropic动态,开发者需警惕 Claude Sonnet 4.6 代码执行 Smoke评测 模型退化 7小时前 55