GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026年6月20日 13 约2分钟 Winzheng Index

GPT-5.5 代码执行 Smoke评测执行约束失衡主榜暴跌

2026年6月20日Smoke轻量评测中，GPT-5.5主榜从昨日93分跌至72.5分，执行分直接从100降至50，约束分也从115.5回落至100。

前七名模型执行分均在98.4分以上，其中Claude Opus 4.7、Qwen3 Max执行与约束双双达到100分。Claude Sonnet 4.6、DeepSeek V4 Pro、豆包Pro、GPT-o3四家执行分同为100，约束分均为96.7，形成“执行满分+约束小幅让位”的稳定结构。

后四名模型则呈现相反格局：GPT-5.5、文心一言4.5、Gemini 2.5 Pro、Gemini 3.1 Pro执行分一致跌至50，约束分却保持96.7-100分。core_overall公式下，执行权重0.55导致这四家主榜分数被大幅拉低。

Gemini 3.1 Pro主榜下跌28.3分，执行分下降50分；Gemini 2.5 Pro下跌25分，执行分同样下降50分，约束分小幅回落5.5分。文心一言4.5执行分下降44.1分，主榜下跌22.2分。GPT-5.5执行分下降50分，主榜下跌20.5分。

这些下跌均集中在执行维度，约束维度降幅有限或不变。Smoke评测10题中，执行类题目占比直接影响0.55权重系数，导致单日分数出现20分以上级别的跳水。

Claude Opus 4.7与Qwen3 Max以100分并列第一，两者在代码执行和材料约束上均无短板。Grok 4执行98.4分、约束96.7分，主榜97.64分，位列第七，仍保持执行与约束的接近均衡。

今日数据表明，执行分达到100分的模型在主榜前六名中占据五席，约束分96.7分已成为当前及格线。低于这一约束分的模型尚未出现。

执行分50分的四家模型，约束分仍处于高位，说明材料约束能力未同步崩盘，问题集中于代码执行路径的稳定性。

执行维度一次50分级别的集体回落，已将四家模型的主榜位置从前六直接推至后四，权重系数0.55放大了这一结构裂痕。

今日Smoke评测仅反映单日10题结果，执行分的大幅波动需要后续多日数据验证其持续性。

相关文章