在赢政指数2026年6月17日对11个模型的实测中,Qwen3 Max材料约束从昨日的100分暴跌至71.1分,主榜仅得73.25分,成为当日最突出异常。
执行与约束的结构差异决定排名
Claude Opus 4.7以代码执行100分、材料约束100分拿下主榜100分,0.55×100+0.45×100的公式使其毫无悬念领先。Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5三家主榜同为98.83分,执行均为100分,但约束得分均为97.4分,结构高度一致。
GPT-o3与Claude Sonnet 4.6、DeepSeek V4 Pro并列执行100分,约束分别为94.8分和94分,主榜落在97.66分与97.3分区间。豆包Pro则呈现反向结构:执行91.7分、约束100分,主榜95.44分,显示材料约束对最终得分的贡献权重。
昨日对比揭示执行端修复迹象
Gemini 2.5 Pro与Gemini 3.1 Pro主榜各上涨53.8分,执行从昨日未知基线直接升至100分。GPT-5.5主榜上涨28.8分,执行升至100分。DeepSeek V4 Pro主榜上涨27.3分,执行同样升至100分。GPT-o3主榜上涨25.2分,执行升至100分,但约束下降5.2分。
这些上涨主要来自执行端满分达成,说明昨日部分模型在代码执行任务上存在明显短板,今日已完成修复。
异常信号指向约束端波动
Qwen3 Max材料约束暴跌28.9分,直接导致主榜从昨日可能的高位跌至73.25分。文心一言4.5主榜暴跌10.4分,执行仅50分,约束97.4分,0.55×50+0.45×97.4的计算结果使其垫底。
Grok 4执行66.7分、约束96.7分,主榜80.2分,执行短板明显拉低整体。上述数据表明,材料约束端的突然下滑比执行端波动更难快速恢复。
执行100分已成主流模型标配,约束得分差异正在成为新的分水岭。
今日Smoke数据再次验证:当执行端趋同后,材料约束的稳定性直接决定主榜最终位次。
数据来源:赢政指数 (YZ Index) | Run #184 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接