在2026年6月19日的赢政指数Smoke轻量评测中,Gemini 3.1 Pro以主榜99.28分、代码执行100分、材料约束98.4分位居第一,0.55×执行+0.45×约束的加权结构凸显其双维度均衡优势。
执行满分阵营的约束分化
今日11个模型中,Gemini 3.1 Pro、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、GPT-o3、GPT-5.5、豆包Pro、Claude Sonnet 4.6共10个模型代码执行全部达到100分。排名差异几乎完全由材料约束决定:Gemini 3.1 Pro约束98.4分拉开第二名Claude Opus 4.7和DeepSeek V4 Pro的2.53分差距。
文心一言4.5是唯一执行未满分的模型,其代码执行94.1分、材料约束92.2分,主榜93.25分。执行短板使其无法进入前六,但约束表现仍优于GPT-o3的84.8分。
昨日对比下的剧烈波动
与昨日数据对比,Qwen3 Max材料约束提升23分,主榜从约86.95分跃升至97.35分,排名升至第四。Grok 4约束提升19.6分,主榜升8.8分至95.82分。两模型均保持执行100分,约束端的单日改善直接转化为排名上升。
反向波动同样显著。GPT-o3材料约束下降15.2分,主榜降6.8分至93.16分;豆包Pro约束下降15.9分,主榜降7.2分至92.85分。Claude Sonnet 4.6约束下降14分,主榜降6.3分至92.53分。
异常信号的结构解读
GPT-o3与豆包Pro的约束暴跌发生在执行保持100分的前提下,说明问题集中于材料约束环节。0.45的权重使得约束每下降15分左右,主榜即损失约6.8-7.2分,与实际排名下滑幅度一致。两模型昨日约束本已处于中下游,单日进一步下滑后与前五名拉开5分以上差距。
Qwen3 Max和Grok 4的约束提升则显示出不同路径。两者执行本已满分,约束端改善直接推高主榜,且未伴随执行侧波动,结构相对稳健。
约束端单日波动超过15分,已成为区分模型真实可用性的关键信号。
今日排名前六模型约束均在90.7分以上,后五名约束则分布在83.4-92.2分区间。执行满分已成标配,材料约束的稳定性与上限正在决定每日 Smoke 排名的最终格局。
数据来源:赢政指数 (YZ Index) | Run #187 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接