材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

2026年6月13日 21 约2分钟 Winzheng Index

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测异常信号

在赢政指数2026年6月13日的Smoke轻量评测中，Claude Opus 4.7以主榜90.78分位居第一，其代码执行100分、材料约束79.5分。

执行满分普遍，约束成唯一分水岭

今日排名前10的模型代码执行全部达到100分，核心_overall分数公式0.55×执行+0.45×约束使材料约束成为决定排名的唯一变量。Claude Opus 4.7约束79.5分、豆包Pro 78.5分、Gemini 2.5 Pro 77.3分，三者依次拉开0.45分差距，直接对应主榜0.45分、0.45分、0.23分的领先。

文心一言4.5是唯一执行未满分的模型，执行50分、约束76.8分，主榜仅62.06分，落后第二名28.27分，证明执行端一旦失守，即使约束表现尚可也难以进入第一梯队。

材料约束集体暴跌，异常信号集中

与昨日对比，8个模型材料约束出现两位数下跌。GPT-5.5约束暴跌20.3分至66分，主榜跌至第六；Qwen3 Max约束暴跌30.3分至64.5分；Gemini 3.1 Pro约束暴跌34分，主榜下跌13.9分至83.04分。这些跌幅远超执行端的波动，表明当日测试材料对约束维度的要求显著提高。

豆包Pro主榜上涨23.9分，主要来自执行端从昨日低位回升47.5分，约束仅下降5分，整体仍进入前二。Gemini 2.5 Pro执行回升45分，约束下降15.2分，净得17.9分，说明执行端改善能够部分对冲约束损失。

结构特征与稳定性隐忧

当前格局显示，代码执行已进入平台期，材料约束成为高频波动项。Claude Opus 4.7虽然约束也下跌16.5分，但仍以79.5分保持第一，说明其约束基准线较高。GPT-5.5约束66分且诚信评级为warn，在多模型约束集体走低的环境下，风险敞口更大。

文心一言4.5的执行50分与其他模型形成断层，暴露其在代码执行任务上的持续短板，而非单日波动。

材料约束的剧烈波动正在把模型真实上限暴露出来，执行满分只是入场券，约束稳定性才是决赛门票。

数据来源：赢政指数 (YZ Index) | Run #166 | 查看原始数据

材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

执行满分普遍，约束成唯一分水岭

材料约束集体暴跌，异常信号集中

结构特征与稳定性隐忧

相关文章