在赢政指数 2026年7月2日对 11 个模型的 Smoke 轻量评测中,Gemini 3.1 Pro 以主榜 82.97 分(执行 75 分、材料约束 92.7 分)取得当日第一,豆包 Pro 以 81.98 分(执行 75 分、材料约束 90.5 分)位居第二,两者执行分数并列最高。
执行与约束的结构差异决定排名
主榜分数按 0.55×代码执行 + 0.45×材料约束计算。Gemini 3.1 Pro 和豆包 Pro 凭借 75 分的执行得分,在公式中获得 41.25 分的执行贡献,直接领先第三名 Claude Opus 4.7(执行 58.3 分,执行贡献 32.065 分)。Claude Opus 4.7 的材料约束达到 97 分,在约束维度贡献 43.65 分,但执行短板使其主榜仅 75.72 分。
DeepSeek V4 Pro 执行 61.1 分、约束 89.5 分,主榜 73.88 分,排第四。GPT-o3 执行 50 分、约束 93.5 分,主榜 69.58 分,排第五。可见执行分数每提升 10 分,对主榜的拉动约为 5.5 分,而约束分数提升 10 分仅拉动 4.5 分,执行维度在当日权重下更具决定性。
昨日执行分数回落幅度分析
与昨日对比,Claude Sonnet 4.6 执行从昨日水平回落 44.5 分,主榜下降 25.4 分;GPT-5.5 执行回落 39.5 分,主榜下降 22 分;DeepSeek V4 Pro 执行回落 33.4 分,主榜下降 20 分。这些回落直接降低了执行贡献,导致主榜排名后移。
Qwen3 Max 执行回落 31.2 分、约束回落 9.1 分,主榜下降 21.3 分。Gemini 2.5 Pro 执行回落 26.3 分、约束回落 13 分,主榜下降 20.3 分。执行回落的模型中,Claude Sonnet 4.6 和 GPT-5.5 的约束仍保持 92.7 分和 90.5 分,说明约束维度相对稳定,执行维度成为当日排名的关键变量。
高约束模型的执行短板
Claude Opus 4.7、GPT-o3、Claude Sonnet 4.6、GPT-5.5、Grok 4 的约束分数均在 91.7 分以上,但执行分数集中在 47.9–58.3 分区间。这些模型的约束优势未能转化为更高主榜分数,反映出在 Smoke 10 题快测中,代码执行任务对最终排名的影响更为直接。
垫底的文心一言 4.5 执行仅 20.8 分,尽管约束 86.9 分,主榜 50.55 分。Qwen3 Max 执行 33.3 分、约束 86.9 分,主榜 57.42 分。低执行分数直接压缩了主榜上限。
当日无异常信号记录,执行分数回落可能源于单日题目对特定模型的适配差异,但数据仅显示分数变化,未提供题目细节。
执行 75 分的 Gemini 3.1 Pro 与豆包 Pro 共同证明,材料约束接近 90 分已成及格线,代码执行每多 10 分才是主榜排名的决定性增量。
数据来源:赢政指数 (YZ Index) | Run #208 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接