豆包 Pro以83.91分居首：2026-07-06 Smoke快测数据简报

2026年7月6日 16 约4分钟 Winzheng Index

赢政指数 Smoke快测 AI评测模型排名数据简报

2026-07-06 赢政指数 Smoke 快测覆盖 11 个模型，豆包 Pro 以 83.91 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度，主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小，单日分数更适合作为监控信号，而不是对模型能力做长期定论。

当日排名

排名	模型	主榜	代码执行	材料约束	诚信
#1	豆包 Pro	83.91	75	94.8	pass
#2	GPT-5.5	80.45	75	87.1	pass
#3	DeepSeek V4 Pro	79.35	66.7	94.8	pass
#4	Gemini 3.1 Pro	79.35	66.7	94.8	pass
#5	Grok 4	79.35	66.7	94.8	pass
#6	Claude Sonnet 4.6	71.51	50	97.8	pass
#7	Claude Opus 4.7	70.16	50	94.8	pass
#8	GPT-o3	70.16	50	94.8	pass
#9	Qwen3 Max	70.16	50	94.8	warn
#10	Gemini 2.5 Pro	67.3	44.8	94.8	pass
#11	GLM-4.6	38.75	50	25	pass

数据解读

今日赢政指数Smoke快测中，豆包Pro以主榜83.91位居首位，其代码执行75与材料约束94.8的搭配形成均衡结构。GPT-5.5主榜80.45，同样代码执行75但材料约束87.1，显示在材料约束维度相对收窄。DeepSeek V4 Pro、Gemini 3.1 Pro与Grok 4三家主榜同为79.35，代码执行均为66.7、材料约束均为94.8，呈现代码执行偏弱而材料约束偏强的相似配比。Claude Sonnet 4.6主榜71.51，代码执行50而材料约束97.8，突出材料约束优势下的代码执行短板。

GLM-4.6主榜较前次同口径run下降21.3分，代码执行下降38.7分，诚信由fail转为pass；Gemini 2.5 Pro主榜下降16分，代码执行下降42.7分，材料约束上升16.6分；GPT-o3主榜下降9.6分，代码执行下降22分，材料约束上升5.5分。以上变化发生在单日小样本测试中，可能源于题目抽样波动，也可能反映模型真实表现退化，需后续run复核确认。

整体来看，头部模型在代码执行与材料约束的强弱搭配上各有侧重，Claude Opus 4.7与GPT-o3等主榜70.16模型同样代码执行50、材料约束94.8，Qwen3 Max主榜70.16但诚信warn。Smoke快测作为小样本单日信号，当前数据仅供当日参考，不构成长期判断依据。

主要变化

GLM-4.6：主榜下降21.3分，代码执行-38.7分，诚信fail→pass
Gemini 2.5 Pro：主榜下降16分，代码执行-42.7分，材料约束+16.6分
GPT-o3：主榜下降9.6分，代码执行-22分，材料约束+5.5分
Gemini 3.1 Pro：主榜下降9.2分，代码执行-30.3分，材料约束+16.6分
Claude Sonnet 4.6：主榜下降8.3分，代码执行-22分，材料约束+8.5分

需要关注的信号

本次未保留可发布的异常信号。

读这类 Smoke 简报时，重点应放在两个问题上：第一，某个模型是否连续多日暴露同一类弱点；第二，诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化，可能来自题目抽样，也可能是真实退化的早期信号，需要后续 run 复核。

数据来源：赢政指数 (YZ Index) | Run #215 | 查看原始数据

豆包 Pro以83.91分居首：2026-07-06 Smoke快测数据简报

当日排名

数据解读

主要变化

需要关注的信号

相关文章