Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分 代码执行从100降至50

在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜从96.45分跌至70.52分,代码执行从100.00降至50.00,材料约束从92.10升至95.60。

单一维度导致的剧烈波动

此次主榜下跌25.9分几乎完全由代码执行维度决定。该维度从昨日的100.00分直接跌至50.00分,降幅达到50分。材料约束维度反而从92.10分提升3.5分至95.60分,工程判断维度维持100.00分不变,任务表达从84.20分升至87.50分。两个核心主榜维度中仅代码执行出现断崖式下跌。

Smoke评测特性与抽签影响

Smoke评测每日仅10题,每维度2题,单日分数标准差天然较大。代码执行维度本次可能抽中了对特定编程场景敏感的题目,导致模型一次性失分50分。材料约束维度同期小幅上升,说明模型在约束遵循方面的基础能力并未出现系统性问题。

真实退化还是随机波动

从单日数据看,更可能是题目抽签带来的随机波动。工程判断维度连续两日保持100.00分,任务表达维度也小幅上升,诚信评级维持pass,未出现跨维度同步下滑。真实模型退化通常会伴随多个维度同时恶化,而非单一维度50分级别的孤立下跌。

是否需要持续关注

建议将Claude Sonnet 4.6列入明日Smoke评测观察名单。若代码执行维度连续两日低于70分,再结合正式评测数据判断是否存在版本级变化。目前仅凭单日50分跌幅,尚不足以认定模型能力出现系统性退化。

一次50分的代码执行腰斩,更可能是10道题的抽签结果,而非模型本身突然失效。

数据来源:赢政指数 (YZ Index) | Run #201 | 查看原始数据