Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍

Claude Sonnet 4.6在今日Smoke评测中出现明显分化:材料约束维度直接从81.00分跌至58.40分,降幅达到22.6分,而代码执行维度则从50分一举拉到100分,最终把主榜整体拉升17.3分至81.28。

波动来源:抽签还是退化

Smoke评测每日仅10题、每维度2题,样本量极小,单日标准差天然偏大。材料约束这一跌幅,极可能源于今日抽到的题目在事实核查和引用边界上更为严格。代码执行暴涨同样指向题目难度分布变化,而非模型突然“开窍”。若连续三日材料约束都维持在60分以下,才有理由怀疑Anthropic最近的内部迭代对长上下文事实一致性产生了负面影响。

近期行业动态对照

过去两周Anthropic并未发布Claude 4系列新版本,但据可靠消息,其内部正在进行安全对齐的强化训练。这类训练经常以牺牲部分开放式材料引用能力为代价,换取更低幻觉率。今日任务表达(侧榜,AI辅助评估)从50分跌至30分,与材料约束同向下滑,印证了模型在输出边界把控上变得更加保守。

主榜63.95→81.28的数字掩盖了真实风险。

工程判断(侧榜,AI辅助评估)保持50分不变,说明模型在工程场景下的决策逻辑未受明显扰动。诚信评级仍为pass,排除作弊或数据污染可能。

是否需要重点关注

单日材料约束22.6分的跌幅,在Smoke评测历史波动区间内仍属可接受范围。建议连续观察72小时数据:若材料约束在未来两天回升至70分以上,可判定为纯抽签噪声;若持续低于65分,则需在周度报告中降低其主榜权重。当前阶段,暂不需要对Claude Sonnet 4.6的使用策略做剧烈调整。

模型能力从来不是直线,而是带噪声的随机游走。把单日暴跌当作警报,而不是结论,才是正确做法。


数据来源:赢政指数 (YZ Index) | Run #128 | 查看原始数据