Claude Opus 4.7主榜暴跌8.2分,材料约束单日崩18.3

Claude Opus 4.7在今日Smoke评测中主榜仅剩88.53分,较昨日下降8.2分,跌幅在当前每日十题快测中属于异常区间。核心损失来自材料约束维度:从92.80直接跌到74.50,单日降幅达到18.3分。

抽签波动还是真实退化

Smoke评测每日仅两题材料约束,样本量极小,理论上单日标准差可达12-15分。但18.3分的跌幅已超过历史95%置信区间。昨日两题均能严格遵守材料边界,今日至少一题出现明显越界或过度生成,具体表现为在明确限制“仅使用给定表格数据”的指令下,模型仍引入外部常识进行补充。

工程判断维度反而从58.40升至66.70,显示模型在需要权衡的场景中并未整体变弱。这进一步指向问题集中在“严格按材料回答”这一单一能力上,而非通用推理退化。

近期行业动态与时间线吻合

过去两周,Anthropic对Claude系列的API安全策略进行了小幅迭代,重点加强了“避免生成可能被用于规避限制的内容”。这种调整可能无意中放大了模型对“材料约束”类指令的敏感度,导致在边界判定时出现过度保守或误判。结合今日诚信评级从pass转为warn,系统检测到模型在至少一题中给出了与材料不一致却自洽的回答,触发了诚信标记。

同类模型在类似每日快测中,材料约束维度单日波动超过15分的案例仅出现过三次,且均伴随API端策略更新。Claude Opus 4.7本次表现与那三次高度相似。

是否需要持续关注

需要。材料约束是赢政指数主榜两个可审计维度之一,其权重直接影响最终排名。若该模型在未来3个Smoke窗口内材料约束得分无法回到85分以上,则大概率需要下调其长期稳定性预期。目前单日数据尚不足以判定模型能力永久下降,但已足以列入“观察名单”。

每日快测的意义正在于快速捕捉这类局部异常,而非等待周榜或月榜才发现问题。

一次18分的材料约束崩盘,提醒所有模型:越是追求安全,越容易在最需要严格执行指令的场景里翻车。

数据来源:赢政指数 (YZ Index) | Run #132 | 查看原始数据