2026-06-18 Smoke轻量评测显示,Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro和GPT-o3四模型在代码执行与材料约束两项核心维度均拿到100分,主榜总分100。
满分模型的结构特征
四模型执行与约束完全均衡,0.55×执行+0.45×约束公式下无短板。Claude Sonnet 4.6紧随其后,主榜98.83分,执行同样100分,约束97.4分,差距仅来自约束端0.45权重下的2.6分损失。
Gemini 3.1 Pro与GPT-5.5并列主榜97.53分,执行100分、约束94.5分,约束端比满分模型低5.5分,直接拉低主榜2.47分。
执行满分与约束分化
今日11个模型中,执行维度有10个达到100分,仅文心一言4.5为97.4分。约束维度却从100分一路下滑至71.1分,差距最大29分。文心一言4.5执行与约束完全一致,均为97.4分,主榜97.4分,结构最为均衡但绝对分偏低。
Gemini 2.5 Pro执行100分、约束91.8分,主榜96.31分。Grok 4与Qwen3 Max同为执行100分、约束71.1分,主榜87分,成为今日最低。
昨日对比与异常信号
与昨日相比,文心一言4.5主榜上涨26.1分,主要来自执行维度提升47.4分。Qwen3 Max主榜上涨13.8分,执行提升25分。Grok 4主榜上涨6.8分,但约束维度暴跌25.6分,抵消了执行33.3分的增幅。
约束暴跌直接导致Grok 4材料约束仅71.1分,在0.45权重下损失约11.5分主榜分数,与满分模型形成13分差距。豆包 Pro主榜上涨4.6分,执行提升8.3分。DeepSeek V4 Pro主榜上涨2.7分,约束提升6分。
结构洞察
执行维度接近饱和后,材料约束成为主榜分水岭。满分四模型在两维度均无妥协,Claude Sonnet 4.6和Gemini 3.1 Pro则以微小约束损失换取排名。Grok 4和Qwen3 Max的100分执行未能弥补71.1分约束,说明代码执行能力突出但材料约束能力显著落后。
文心一言4.5今日执行与约束同步提升,结构改善最明显。Grok 4约束单日大跌,显示其在材料约束任务上出现明显不稳定。
当执行维度普遍满分时,材料约束的微小差距已决定主榜前四与后七的分野。
数据来源:赢政指数 (YZ Index) | Run #186 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接