豆包Pro 98.61分登顶 Smoke评测,Claude执行-50分暴跌

2026-06-28 Smoke轻量评测显示,豆包Pro主榜98.61分(执行100分、材料约束96.9分)位居第一,执行维度满分成为其领先核心。

分数结构对比

豆包Pro的执行100分与约束96.9分搭配接近均衡,0.55×100+0.45×96.9的加权结果直接拉开与其他模型差距。Gemini 3.1 Pro主榜91.21分(执行91.7分、约束90.6分),两维度差距仅1.1分,结构最为均衡。DeepSeek V4 Pro主榜87.35分(执行83.3分、约束92.3分),约束强于执行。

GPT-5.5主榜84.18分(执行75分、约束95.4分),Grok 4与GPT-o3同样呈现约束95.4分但执行72-75分的特征。Claude Opus 4.7与Sonnet 4.6约束分别达到97.7分和95.6分,却因执行50分,主榜仅71.47分和70.52分。

昨日变动分析

Claude Opus 4.7主榜下跌25.7分、Sonnet 4.6下跌25.9分,均源于执行维度从昨日100分直接降至50分,材料约束保持高位。文心一言4.5执行从昨日62.5分降至35.6分,主榜下跌13.5分。豆包Pro执行则从昨日75分升至100分,主榜上涨15.2分。

执行维度波动直接影响主榜排名,约束维度普遍维持90分以上区间,未出现明显下滑。

异常信号解读

Claude两款模型执行分值腰斩可能反映当日10题快测中代码执行类题目处理一致性下降。文心一言4.5执行35.6分同样显示执行端波动较大。豆包Pro执行满分则可能源于对同类任务的稳定输出。

材料约束维度整体保持高位,Claude Opus 4.7的97.7分仍是当日最高,说明该维度对多数模型仍构成优势。

执行维度50分与100分的落差,已成为今日Smoke评测最直接的排名推手。

数据来源:赢政指数 (YZ Index) | Run #201 | 查看原始数据