Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

2026年5月23日 407 约2分钟 Winzheng Index

Claude Sonnet 4.6 材料约束 Smoke评测模型波动 Anthropic动态

Claude Sonnet 4.6在今日Smoke评测中出现明显分化：材料约束维度直接从81.00分跌至58.40分，降幅达到22.6分，而代码执行维度则从50分一举拉到100分，最终把主榜整体拉升17.3分至81.28。

波动来源：抽签还是退化

Smoke评测每日仅10题、每维度2题，样本量极小，单日标准差天然偏大。材料约束这一跌幅，极可能源于今日抽到的题目在事实核查和引用边界上更为严格。代码执行暴涨同样指向题目难度分布变化，而非模型突然“开窍”。若连续三日材料约束都维持在60分以下，才有理由怀疑Anthropic最近的内部迭代对长上下文事实一致性产生了负面影响。

近期行业动态对照

过去两周Anthropic并未发布Claude 4系列新版本，但据可靠消息，其内部正在进行安全对齐的强化训练。这类训练经常以牺牲部分开放式材料引用能力为代价，换取更低幻觉率。今日任务表达（侧榜，AI辅助评估）从50分跌至30分，与材料约束同向下滑，印证了模型在输出边界把控上变得更加保守。

主榜63.95→81.28的数字掩盖了真实风险。

工程判断（侧榜，AI辅助评估）保持50分不变，说明模型在工程场景下的决策逻辑未受明显扰动。诚信评级仍为pass，排除作弊或数据污染可能。

是否需要重点关注

单日材料约束22.6分的跌幅，在Smoke评测历史波动区间内仍属可接受范围。建议连续观察72小时数据：若材料约束在未来两天回升至70分以上，可判定为纯抽签噪声；若持续低于65分，则需在周度报告中降低其主榜权重。当前阶段，暂不需要对Claude Sonnet 4.6的使用策略做剧烈调整。

模型能力从来不是直线，而是带噪声的随机游走。把单日暴跌当作警报，而不是结论，才是正确做法。

数据来源：赢政指数 (YZ Index) | Run #128 | 查看原始数据

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

波动来源：抽签还是退化

近期行业动态对照

是否需要重点关注

相关文章