Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

2026年5月26日 42 约2分钟 Winzheng Index

Claude Opus 4.7 材料约束 Smoke评测主榜波动诚信评级

Claude Opus 4.7在今日Smoke评测中主榜仅剩88.53分，较昨日下降8.2分，跌幅在当前每日十题快测中属于异常区间。核心损失来自材料约束维度：从92.80直接跌到74.50，单日降幅达到18.3分。

抽签波动还是真实退化

Smoke评测每日仅两题材料约束，样本量极小，理论上单日标准差可达12-15分。但18.3分的跌幅已超过历史95%置信区间。昨日两题均能严格遵守材料边界，今日至少一题出现明显越界或过度生成，具体表现为在明确限制“仅使用给定表格数据”的指令下，模型仍引入外部常识进行补充。

工程判断维度反而从58.40升至66.70，显示模型在需要权衡的场景中并未整体变弱。这进一步指向问题集中在“严格按材料回答”这一单一能力上，而非通用推理退化。

近期行业动态与时间线吻合

过去两周，Anthropic对Claude系列的API安全策略进行了小幅迭代，重点加强了“避免生成可能被用于规避限制的内容”。这种调整可能无意中放大了模型对“材料约束”类指令的敏感度，导致在边界判定时出现过度保守或误判。结合今日诚信评级从pass转为warn，系统检测到模型在至少一题中给出了与材料不一致却自洽的回答，触发了诚信标记。

同类模型在类似每日快测中，材料约束维度单日波动超过15分的案例仅出现过三次，且均伴随API端策略更新。Claude Opus 4.7本次表现与那三次高度相似。

是否需要持续关注

需要。材料约束是赢政指数主榜两个可审计维度之一，其权重直接影响最终排名。若该模型在未来3个Smoke窗口内材料约束得分无法回到85分以上，则大概率需要下调其长期稳定性预期。目前单日数据尚不足以判定模型能力永久下降，但已足以列入“观察名单”。

每日快测的意义正在于快速捕捉这类局部异常，而非等待周榜或月榜才发现问题。

一次18分的材料约束崩盘，提醒所有模型：越是追求安全，越容易在最需要严格执行指令的场景里翻车。

数据来源：赢政指数 (YZ Index) | Run #132 | 查看原始数据

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

抽签波动还是真实退化

近期行业动态与时间线吻合

是否需要持续关注

相关文章