Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026年6月17日 13 约2分钟 Winzheng Index

Qwen3 Max 材料约束 Smoke轻量评测代码执行主榜排名

在赢政指数2026年6月17日对11个模型的实测中，Qwen3 Max材料约束从昨日的100分暴跌至71.1分，主榜仅得73.25分，成为当日最突出异常。

执行与约束的结构差异决定排名

Claude Opus 4.7以代码执行100分、材料约束100分拿下主榜100分，0.55×100+0.45×100的公式使其毫无悬念领先。Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5三家主榜同为98.83分，执行均为100分，但约束得分均为97.4分，结构高度一致。

GPT-o3与Claude Sonnet 4.6、DeepSeek V4 Pro并列执行100分，约束分别为94.8分和94分，主榜落在97.66分与97.3分区间。豆包Pro则呈现反向结构：执行91.7分、约束100分，主榜95.44分，显示材料约束对最终得分的贡献权重。

昨日对比揭示执行端修复迹象

Gemini 2.5 Pro与Gemini 3.1 Pro主榜各上涨53.8分，执行从昨日未知基线直接升至100分。GPT-5.5主榜上涨28.8分，执行升至100分。DeepSeek V4 Pro主榜上涨27.3分，执行同样升至100分。GPT-o3主榜上涨25.2分，执行升至100分，但约束下降5.2分。

这些上涨主要来自执行端满分达成，说明昨日部分模型在代码执行任务上存在明显短板，今日已完成修复。

异常信号指向约束端波动

Qwen3 Max材料约束暴跌28.9分，直接导致主榜从昨日可能的高位跌至73.25分。文心一言4.5主榜暴跌10.4分，执行仅50分，约束97.4分，0.55×50+0.45×97.4的计算结果使其垫底。

Grok 4执行66.7分、约束96.7分，主榜80.2分，执行短板明显拉低整体。上述数据表明，材料约束端的突然下滑比执行端波动更难快速恢复。

执行100分已成主流模型标配，约束得分差异正在成为新的分水岭。

今日Smoke数据再次验证：当执行端趋同后，材料约束的稳定性直接决定主榜最终位次。

数据来源：赢政指数 (YZ Index) | Run #184 | 查看原始数据

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

执行与约束的结构差异决定排名

昨日对比揭示执行端修复迹象

异常信号指向约束端波动

相关文章