豆包 Pro 与 Gemini 3.1 Pro并列88.54分:2026-07-05 Smoke快测数据简报

2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。

本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度,主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小,单日分数更适合作为监控信号,而不是对模型能力做长期定论。

当日排名

排名模型主榜代码执行材料约束诚信
#1豆包 Pro88.549778.2pass
#2Gemini 3.1 Pro88.549778.2pass
#3Gemini 2.5 Pro83.3287.578.2pass
#4Grok 481.447589.3warn
#5Claude Sonnet 4.679.797289.3pass
#6GPT-o379.797289.3pass
#7DeepSeek V4 Pro77.7288.764.3pass
#8GPT-5.574.797278.2pass
#9Claude Opus 4.770.655.389.3pass
#10Qwen3 Max63.7342.889.3pass
#11GLM-4.660.0488.725fail

数据解读

今日赢政指数Smoke快测中,豆包Pro与Gemini 3.1 Pro并列主榜88.54,两者代码执行同为97、材料约束同为78.2,形成高代码执行搭配中等材料约束的结构。Gemini 2.5 Pro主榜83.32,代码执行87.5、材料约束78.2,同样偏重代码执行侧。Grok 4主榜81.44,代码执行75、材料约束89.3,则呈现材料约束更强的搭配。

Claude Opus 4.7主榜较前次下降24.7分,其中代码执行下降41.7分;Gemini 3.1 Pro主榜上升18.1分,代码执行上升25分、材料约束上升9.7分;Grok 4主榜下降15.1分,代码执行下降24.2分且诚信由pass转为warn;Gemini 2.5 Pro主榜下降13.7分,代码执行下降12.5分、材料约束下降15.1分;GPT-o3主榜下降12.6分,代码执行下降25分。这些异动在小样本单日数据中可能源于题目抽样波动,也可能反映真实表现变化,需后续同口径run复核确认。

DeepSeek V4 Pro材料约束出现-15.8分暴跌,与其代码执行88.7形成明显反差,该信号同样需通过多次复测判断是否为偶然波动。

主要变化

  • Claude Opus 4.7:主榜下降24.7分,代码执行-41.7分
  • Gemini 3.1 Pro:主榜上升18.1分,代码执行+25分,材料约束+9.7分
  • Grok 4:主榜下降15.1分,代码执行-24.2分,诚信pass→warn
  • Gemini 2.5 Pro:主榜下降13.7分,代码执行-12.5分,材料约束-15.1分
  • GPT-o3:主榜下降12.6分,代码执行-25分

需要关注的信号

  • DeepSeek V4 Pro:材料约束暴跌 -15.8 分
  • GLM-4.6:今日诚信评级为 fail(基于当日 Smoke 数据)。

读这类 Smoke 简报时,重点应放在两个问题上:第一,某个模型是否连续多日暴露同一类弱点;第二,诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化,可能来自题目抽样,也可能是真实退化的早期信号,需要后续 run 复核。


数据来源:赢政指数 (YZ Index) | Run #214 | 查看原始数据