豆包Pro 98.61分登顶 Smoke评测，Claude执行-50分暴跌

2026年6月28日 15 约2分钟 Winzheng Index

豆包 Pro Claude Opus 执行维度材料约束 Smoke评测

2026-06-28 Smoke轻量评测显示，豆包Pro主榜98.61分（执行100分、材料约束96.9分）位居第一，执行维度满分成为其领先核心。

分数结构对比

豆包Pro的执行100分与约束96.9分搭配接近均衡，0.55×100+0.45×96.9的加权结果直接拉开与其他模型差距。Gemini 3.1 Pro主榜91.21分（执行91.7分、约束90.6分），两维度差距仅1.1分，结构最为均衡。DeepSeek V4 Pro主榜87.35分（执行83.3分、约束92.3分），约束强于执行。

GPT-5.5主榜84.18分（执行75分、约束95.4分），Grok 4与GPT-o3同样呈现约束95.4分但执行72-75分的特征。Claude Opus 4.7与Sonnet 4.6约束分别达到97.7分和95.6分，却因执行50分，主榜仅71.47分和70.52分。

昨日变动分析

Claude Opus 4.7主榜下跌25.7分、Sonnet 4.6下跌25.9分，均源于执行维度从昨日100分直接降至50分，材料约束保持高位。文心一言4.5执行从昨日62.5分降至35.6分，主榜下跌13.5分。豆包Pro执行则从昨日75分升至100分，主榜上涨15.2分。

执行维度波动直接影响主榜排名，约束维度普遍维持90分以上区间，未出现明显下滑。

异常信号解读

Claude两款模型执行分值腰斩可能反映当日10题快测中代码执行类题目处理一致性下降。文心一言4.5执行35.6分同样显示执行端波动较大。豆包Pro执行满分则可能源于对同类任务的稳定输出。

材料约束维度整体保持高位，Claude Opus 4.7的97.7分仍是当日最高，说明该维度对多数模型仍构成优势。

执行维度50分与100分的落差，已成为今日Smoke评测最直接的排名推手。

数据来源：赢政指数 (YZ Index) | Run #201 | 查看原始数据

豆包Pro 98.61分登顶 Smoke评测，Claude执行-50分暴跌

分数结构对比

昨日变动分析

异常信号解读

相关文章