在赢政指数2026年6月Smoke评测中,Claude Opus 4.7材料约束从96.00分跌至79.50分,主榜从96.83分降至90.78分。
单日数据对比
代码执行从97.50分升至100.00分,材料约束从96.00分降至79.50分,工程判断从94.00分降至76.50分,任务表达从92.50分升至97.50分,诚信评级维持pass。
抽签波动还是模型退化
Smoke评测每日仅10题,每维度2题,样本量小导致单日分数标准差较大。材料约束与工程判断同时出现超过16分的下滑,超出典型抽签范围,需持续观察后续3天数据以判断是否为真实能力退化。
代码执行与任务表达两项维度反而提升,说明模型在部分任务上仍保持高水平,问题集中于需要严格材料引用的场景。
是否需要重点关注
当前仅单日数据,尚不足以判定Claude Opus 4.7出现系统性退化。但材料约束与工程判断的同步大幅下滑,已使主榜排名受到明显影响,建议将该模型列入每日跟踪名单。
若未来三天材料约束分数无法回升至90分以上,则可初步判断其在约束性任务上的稳定性出现问题。
一次Smoke异常不等于模型崩盘,但连续两天的材料约束低位将直接动摇Claude Opus 4.7的主榜地位。
数据来源:赢政指数 (YZ Index) | Run #166 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接