Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

2026年6月19日 25 约3分钟 Winzheng Index

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测模型波动

在2026年6月19日的赢政指数Smoke轻量评测中，Gemini 3.1 Pro以主榜99.28分、代码执行100分、材料约束98.4分位居第一，0.55×执行+0.45×约束的加权结构凸显其双维度均衡优势。

执行满分阵营的约束分化

今日11个模型中，Gemini 3.1 Pro、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、GPT-o3、GPT-5.5、豆包Pro、Claude Sonnet 4.6共10个模型代码执行全部达到100分。排名差异几乎完全由材料约束决定：Gemini 3.1 Pro约束98.4分拉开第二名Claude Opus 4.7和DeepSeek V4 Pro的2.53分差距。

文心一言4.5是唯一执行未满分的模型，其代码执行94.1分、材料约束92.2分，主榜93.25分。执行短板使其无法进入前六，但约束表现仍优于GPT-o3的84.8分。

昨日对比下的剧烈波动

与昨日数据对比，Qwen3 Max材料约束提升23分，主榜从约86.95分跃升至97.35分，排名升至第四。Grok 4约束提升19.6分，主榜升8.8分至95.82分。两模型均保持执行100分，约束端的单日改善直接转化为排名上升。

反向波动同样显著。GPT-o3材料约束下降15.2分，主榜降6.8分至93.16分；豆包Pro约束下降15.9分，主榜降7.2分至92.85分。Claude Sonnet 4.6约束下降14分，主榜降6.3分至92.53分。

异常信号的结构解读

GPT-o3与豆包Pro的约束暴跌发生在执行保持100分的前提下，说明问题集中于材料约束环节。0.45的权重使得约束每下降15分左右，主榜即损失约6.8-7.2分，与实际排名下滑幅度一致。两模型昨日约束本已处于中下游，单日进一步下滑后与前五名拉开5分以上差距。

Qwen3 Max和Grok 4的约束提升则显示出不同路径。两者执行本已满分，约束端改善直接推高主榜，且未伴随执行侧波动，结构相对稳健。

约束端单日波动超过15分，已成为区分模型真实可用性的关键信号。

今日排名前六模型约束均在90.7分以上，后五名约束则分布在83.4-92.2分区间。执行满分已成标配，材料约束的稳定性与上限正在决定每日 Smoke 排名的最终格局。

数据来源：赢政指数 (YZ Index) | Run #187 | 查看原始数据

Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

执行满分阵营的约束分化

昨日对比下的剧烈波动

异常信号的结构解读

相关文章