材料约束集体暴跌20分,Claude Opus 4.7 90.78分守住第一

在赢政指数2026年6月13日的Smoke轻量评测中,Claude Opus 4.7以主榜90.78分位居第一,其代码执行100分、材料约束79.5分。

执行满分普遍,约束成唯一分水岭

今日排名前10的模型代码执行全部达到100分,核心_overall分数公式0.55×执行+0.45×约束使材料约束成为决定排名的唯一变量。Claude Opus 4.7约束79.5分、豆包Pro 78.5分、Gemini 2.5 Pro 77.3分,三者依次拉开0.45分差距,直接对应主榜0.45分、0.45分、0.23分的领先。

文心一言4.5是唯一执行未满分的模型,执行50分、约束76.8分,主榜仅62.06分,落后第二名28.27分,证明执行端一旦失守,即使约束表现尚可也难以进入第一梯队。

材料约束集体暴跌,异常信号集中

与昨日对比,8个模型材料约束出现两位数下跌。GPT-5.5约束暴跌20.3分至66分,主榜跌至第六;Qwen3 Max约束暴跌30.3分至64.5分;Gemini 3.1 Pro约束暴跌34分,主榜下跌13.9分至83.04分。这些跌幅远超执行端的波动,表明当日测试材料对约束维度的要求显著提高。

豆包Pro主榜上涨23.9分,主要来自执行端从昨日低位回升47.5分,约束仅下降5分,整体仍进入前二。Gemini 2.5 Pro执行回升45分,约束下降15.2分,净得17.9分,说明执行端改善能够部分对冲约束损失。

结构特征与稳定性隐忧

当前格局显示,代码执行已进入平台期,材料约束成为高频波动项。Claude Opus 4.7虽然约束也下跌16.5分,但仍以79.5分保持第一,说明其约束基准线较高。GPT-5.5约束66分且诚信评级为warn,在多模型约束集体走低的环境下,风险敞口更大。

文心一言4.5的执行50分与其他模型形成断层,暴露其在代码执行任务上的持续短板,而非单日波动。

材料约束的剧烈波动正在把模型真实上限暴露出来,执行满分只是入场券,约束稳定性才是决赛门票。

数据来源:赢政指数 (YZ Index) | Run #166 | 查看原始数据