2026年6月20日Smoke轻量评测中,GPT-5.5主榜从昨日93分跌至72.5分,执行分直接从100降至50,约束分也从115.5回落至100。
执行与约束结构分化明显
前七名模型执行分均在98.4分以上,其中Claude Opus 4.7、Qwen3 Max执行与约束双双达到100分。Claude Sonnet 4.6、DeepSeek V4 Pro、豆包Pro、GPT-o3四家执行分同为100,约束分均为96.7,形成“执行满分+约束小幅让位”的稳定结构。
后四名模型则呈现相反格局:GPT-5.5、文心一言4.5、Gemini 2.5 Pro、Gemini 3.1 Pro执行分一致跌至50,约束分却保持96.7-100分。core_overall公式下,执行权重0.55导致这四家主榜分数被大幅拉低。
四模型异常下跌的结构原因
Gemini 3.1 Pro主榜下跌28.3分,执行分下降50分;Gemini 2.5 Pro下跌25分,执行分同样下降50分,约束分小幅回落5.5分。文心一言4.5执行分下降44.1分,主榜下跌22.2分。GPT-5.5执行分下降50分,主榜下跌20.5分。
这些下跌均集中在执行维度,约束维度降幅有限或不变。Smoke评测10题中,执行类题目占比直接影响0.55权重系数,导致单日分数出现20分以上级别的跳水。
高分模型的平衡特征
Claude Opus 4.7与Qwen3 Max以100分并列第一,两者在代码执行和材料约束上均无短板。Grok 4执行98.4分、约束96.7分,主榜97.64分,位列第七,仍保持执行与约束的接近均衡。
今日数据表明,执行分达到100分的模型在主榜前六名中占据五席,约束分96.7分已成为当前及格线。低于这一约束分的模型尚未出现。
执行分50分的四家模型,约束分仍处于高位,说明材料约束能力未同步崩盘,问题集中于代码执行路径的稳定性。
执行维度一次50分级别的集体回落,已将四家模型的主榜位置从前六直接推至后四,权重系数0.55放大了这一结构裂痕。
今日Smoke评测仅反映单日10题结果,执行分的大幅波动需要后续多日数据验证其持续性。
数据来源:赢政指数 (YZ Index) | Run #188 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接