Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026年6月18日 13 约3分钟 Winzheng Index

Grok 4 材料约束 Smoke评测执行与约束模型稳定性

2026-06-18 Smoke轻量评测显示，Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro和GPT-o3四模型在代码执行与材料约束两项核心维度均拿到100分，主榜总分100。

四模型执行与约束完全均衡，0.55×执行+0.45×约束公式下无短板。Claude Sonnet 4.6紧随其后，主榜98.83分，执行同样100分，约束97.4分，差距仅来自约束端0.45权重下的2.6分损失。

Gemini 3.1 Pro与GPT-5.5并列主榜97.53分，执行100分、约束94.5分，约束端比满分模型低5.5分，直接拉低主榜2.47分。

今日11个模型中，执行维度有10个达到100分，仅文心一言4.5为97.4分。约束维度却从100分一路下滑至71.1分，差距最大29分。文心一言4.5执行与约束完全一致，均为97.4分，主榜97.4分，结构最为均衡但绝对分偏低。

Gemini 2.5 Pro执行100分、约束91.8分，主榜96.31分。Grok 4与Qwen3 Max同为执行100分、约束71.1分，主榜87分，成为今日最低。

与昨日相比，文心一言4.5主榜上涨26.1分，主要来自执行维度提升47.4分。Qwen3 Max主榜上涨13.8分，执行提升25分。Grok 4主榜上涨6.8分，但约束维度暴跌25.6分，抵消了执行33.3分的增幅。

约束暴跌直接导致Grok 4材料约束仅71.1分，在0.45权重下损失约11.5分主榜分数，与满分模型形成13分差距。豆包 Pro主榜上涨4.6分，执行提升8.3分。DeepSeek V4 Pro主榜上涨2.7分，约束提升6分。

执行维度接近饱和后，材料约束成为主榜分水岭。满分四模型在两维度均无妥协，Claude Sonnet 4.6和Gemini 3.1 Pro则以微小约束损失换取排名。Grok 4和Qwen3 Max的100分执行未能弥补71.1分约束，说明代码执行能力突出但材料约束能力显著落后。

文心一言4.5今日执行与约束同步提升，结构改善最明显。Grok 4约束单日大跌，显示其在材料约束任务上出现明显不稳定。

当执行维度普遍满分时，材料约束的微小差距已决定主榜前四与后七的分野。

Grok 4材料约束暴跌25.6分 四模型主榜满分并列