2026-07-03 Smoke 轻量评测中,GPT-5.5 以主榜 86.95 分位居第一,其代码执行 100 分、材料约束 71 分的组合直接决定了这一结果。
执行与约束的结构差异
分数公式 core_overall = 0.55 × 代码执行 + 0.45 × 材料约束,执行权重更高,因此 GPT-5.5 的满分执行成为制胜关键。Claude Sonnet 4.6 执行 99.3 分、约束 70 分,主榜 86.12 分,同样依赖执行优势。Claude Opus 4.7 执行同样 100 分,但约束仅 67.4 分,主榜 85.33 分,落后 GPT-5.5 约 1.62 分。
Qwen3 Max 执行 96.3 分、约束 71 分,主榜 84.92 分,与前三名形成明显梯队。Grok 4 执行 92.1 分、约束 63.3 分,主榜 79.14 分,约束拉低整体表现。
约束强于执行的模型
豆包 Pro 执行 75 分、约束 81.7 分,主榜 78.02 分,是前六名中唯一约束高于执行的模型。Gemini 2.5 Pro 执行 74.3 分、约束 75 分,主榜 74.62 分,两种维度接近。Gemini 3.1 Pro 执行仅 50 分,但约束 81.7 分,主榜 64.27 分,显示约束对排名的有限拉动。
DeepSeek V4 Pro 执行 50 分、约束 70 分,主榜 59 分。文心一言 4.5 执行与约束均为 0,主榜 0 分且诚信评级 fail,未进入有效排名。
模型特点推断
执行满分的 GPT-5.5 和 Claude Opus 4.7 在代码执行维度达到天花板,但约束维度均未超过 71 分,反映出材料约束仍是当前模型普遍短板。豆包 Pro 的约束 81.7 分在 11 个模型中最高,表明其在材料约束任务上具备相对优势。
整体前五名执行分数均在 92.1 分以上,后五名执行分数则在 75 分及以下,执行维度对主榜排名的决定性作用清晰可见。
执行主导的格局下,约束短板决定了天花板高度。
数据来源:赢政指数 (YZ Index) | Run #210 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接