豆包 Pro 与 Gemini 3.1 Pro并列88.54分：2026-07-05 Smoke快测数据简报

2026年7月5日 38 约3分钟 Winzheng Index

赢政指数 Smoke快测 AI评测模型排名数据简报

2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型，豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度，主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小，单日分数更适合作为监控信号，而不是对模型能力做长期定论。

当日排名

排名	模型	主榜	代码执行	材料约束	诚信
#1	豆包 Pro	88.54	97	78.2	pass
#2	Gemini 3.1 Pro	88.54	97	78.2	pass
#3	Gemini 2.5 Pro	83.32	87.5	78.2	pass
#4	Grok 4	81.44	75	89.3	warn
#5	Claude Sonnet 4.6	79.79	72	89.3	pass
#6	GPT-o3	79.79	72	89.3	pass
#7	DeepSeek V4 Pro	77.72	88.7	64.3	pass
#8	GPT-5.5	74.79	72	78.2	pass
#9	Claude Opus 4.7	70.6	55.3	89.3	pass
#10	Qwen3 Max	63.73	42.8	89.3	pass
#11	GLM-4.6	60.04	88.7	25	fail

数据解读

今日赢政指数Smoke快测中，豆包Pro与Gemini 3.1 Pro并列主榜88.54，两者代码执行同为97、材料约束同为78.2，形成高代码执行搭配中等材料约束的结构。Gemini 2.5 Pro主榜83.32，代码执行87.5、材料约束78.2，同样偏重代码执行侧。Grok 4主榜81.44，代码执行75、材料约束89.3，则呈现材料约束更强的搭配。

Claude Opus 4.7主榜较前次下降24.7分，其中代码执行下降41.7分；Gemini 3.1 Pro主榜上升18.1分，代码执行上升25分、材料约束上升9.7分；Grok 4主榜下降15.1分，代码执行下降24.2分且诚信由pass转为warn；Gemini 2.5 Pro主榜下降13.7分，代码执行下降12.5分、材料约束下降15.1分；GPT-o3主榜下降12.6分，代码执行下降25分。这些异动在小样本单日数据中可能源于题目抽样波动，也可能反映真实表现变化，需后续同口径run复核确认。

DeepSeek V4 Pro材料约束出现-15.8分暴跌，与其代码执行88.7形成明显反差，该信号同样需通过多次复测判断是否为偶然波动。

主要变化

Claude Opus 4.7：主榜下降24.7分，代码执行-41.7分
Gemini 3.1 Pro：主榜上升18.1分，代码执行+25分，材料约束+9.7分
Grok 4：主榜下降15.1分，代码执行-24.2分，诚信pass→warn
Gemini 2.5 Pro：主榜下降13.7分，代码执行-12.5分，材料约束-15.1分
GPT-o3：主榜下降12.6分，代码执行-25分

需要关注的信号

DeepSeek V4 Pro：材料约束暴跌 -15.8 分
GLM-4.6：今日诚信评级为 fail（基于当日 Smoke 数据）。

读这类 Smoke 简报时，重点应放在两个问题上：第一，某个模型是否连续多日暴露同一类弱点；第二，诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化，可能来自题目抽样，也可能是真实退化的早期信号，需要后续 run 复核。

数据来源：赢政指数 (YZ Index) | Run #214 | 查看原始数据

豆包 Pro 与 Gemini 3.1 Pro并列88.54分：2026-07-05 Smoke快测数据简报

当日排名

数据解读

主要变化

需要关注的信号

相关文章