豆包 Pro以83.91分居首:2026-07-06 Smoke快测数据简报

2026-07-06 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 以 83.91 分位居当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。

本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度,主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小,单日分数更适合作为监控信号,而不是对模型能力做长期定论。

当日排名

排名模型主榜代码执行材料约束诚信
#1豆包 Pro83.917594.8pass
#2GPT-5.580.457587.1pass
#3DeepSeek V4 Pro79.3566.794.8pass
#4Gemini 3.1 Pro79.3566.794.8pass
#5Grok 479.3566.794.8pass
#6Claude Sonnet 4.671.515097.8pass
#7Claude Opus 4.770.165094.8pass
#8GPT-o370.165094.8pass
#9Qwen3 Max70.165094.8warn
#10Gemini 2.5 Pro67.344.894.8pass
#11GLM-4.638.755025pass

数据解读

今日赢政指数Smoke快测中,豆包Pro以主榜83.91位居首位,其代码执行75与材料约束94.8的搭配形成均衡结构。GPT-5.5主榜80.45,同样代码执行75但材料约束87.1,显示在材料约束维度相对收窄。DeepSeek V4 Pro、Gemini 3.1 Pro与Grok 4三家主榜同为79.35,代码执行均为66.7、材料约束均为94.8,呈现代码执行偏弱而材料约束偏强的相似配比。Claude Sonnet 4.6主榜71.51,代码执行50而材料约束97.8,突出材料约束优势下的代码执行短板。

GLM-4.6主榜较前次同口径run下降21.3分,代码执行下降38.7分,诚信由fail转为pass;Gemini 2.5 Pro主榜下降16分,代码执行下降42.7分,材料约束上升16.6分;GPT-o3主榜下降9.6分,代码执行下降22分,材料约束上升5.5分。以上变化发生在单日小样本测试中,可能源于题目抽样波动,也可能反映模型真实表现退化,需后续run复核确认。

整体来看,头部模型在代码执行与材料约束的强弱搭配上各有侧重,Claude Opus 4.7与GPT-o3等主榜70.16模型同样代码执行50、材料约束94.8,Qwen3 Max主榜70.16但诚信warn。Smoke快测作为小样本单日信号,当前数据仅供当日参考,不构成长期判断依据。

主要变化

  • GLM-4.6:主榜下降21.3分,代码执行-38.7分,诚信fail→pass
  • Gemini 2.5 Pro:主榜下降16分,代码执行-42.7分,材料约束+16.6分
  • GPT-o3:主榜下降9.6分,代码执行-22分,材料约束+5.5分
  • Gemini 3.1 Pro:主榜下降9.2分,代码执行-30.3分,材料约束+16.6分
  • Claude Sonnet 4.6:主榜下降8.3分,代码执行-22分,材料约束+8.5分

需要关注的信号

  • 本次未保留可发布的异常信号。

读这类 Smoke 简报时,重点应放在两个问题上:第一,某个模型是否连续多日暴露同一类弱点;第二,诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化,可能来自题目抽样,也可能是真实退化的早期信号,需要后续 run 复核。


数据来源:赢政指数 (YZ Index) | Run #215 | 查看原始数据