Claude Opus 4.7 94.82 分登顶,Gemini 3.1 Pro 暴跌 32.2 分

在 2026 年 7 月 1 日的 Smoke 轻量评测中,Claude Opus 4.7 以 94.82 分位居主榜第一,其代码执行 94.5 分与材料约束 95.2 分形成均衡结构。

前三名执行约束高度匹配

Claude Opus 4.7 与 Claude Sonnet 4.6 的代码执行均为 94.5 分,约束分别 95.2 分和 94.8 分,主榜仅差 0.18 分。DeepSeek V4 Pro 执行同样 94.5 分,但约束 93 分,导致主榜 93.83 分,落后第二名 0.81 分。

GPT-5.5 执行 89.5 分、约束 91.2 分,主榜 90.27 分,显示约束略强于执行的结构特点。

高约束低执行的明显分化

Grok 4 约束 100 分达到满分,但执行仅 68.6 分,主榜 82.73 分。Gemini 2.5 Pro 约束 97 分,执行 64.5 分,主榜 79.13 分。Qwen3 Max 约束 96 分,执行 64.5 分,主榜 78.68 分。

豆包 Pro 约束 95.2 分,执行 44.5 分,主榜 67.32 分。Gemini 3.1 Pro 约束 94.8 分,执行 43 分,主榜 66.31 分。文心一言 4.5 约束 95.2 分,执行 41.7 分,主榜 65.78 分。

昨日对比下的异常波动

Gemini 3.1 Pro 主榜下跌 32.2 分,执行下降 57 分。豆包 Pro 主榜下跌 18.6 分,执行下降 38.8 分。Grok 4 主榜下跌 15.3 分,执行下降 31.4 分。

Claude Sonnet 4.6 主榜上升 12.1 分,执行上升 19.5 分。Claude Opus 4.7 主榜上升 10.8 分,执行上升 21.7 分。两款 Claude 模型通过执行分数的回升巩固了前两名位置。

结构失衡带来的排名压力

当约束分数接近或达到 95 分以上时,执行分数成为决定主榜排名的关键变量。执行低于 65 分的模型,即使约束满分附近,也只能停留在 80 分以下区间。

文心一言 4.5 诚信评级为 warn,其余 10 个模型均为 pass,表明多数模型在材料约束维度保持了基本合规。

执行与约束的搭配比例,而非单一维度满分,决定了 Smoke 榜单的最终排序。

数据来源:赢政指数 (YZ Index) | Run #206 | 查看原始数据