Gemini 3.1 Pro 执行暴跌50分，主榜直接掉到第11

2026年6月26日 23 约3分钟 Winzheng Index

Gemini 3.1 Pro 材料约束 Smoke轻量评测执行维度波动模型稳定性

2026-06-26 Smoke轻量评测中，Gemini 3.1 Pro执行维度从100分直接跌至50分，主榜从昨日98.91分暴跌29.6分至69.31分，成为11个模型里唯一执行维度不及格的模型。

执行与约束的结构差异决定排名

今日主榜前十名中，10个模型代码执行全部拿到100分，唯一变量是材料约束。Claude Opus 4.7以执行100、约束100拿下主榜100分；文心一言4.5执行100、约束97.2，主榜98.74分；Gemini 2.5 Pro、GPT-5.5、Qwen3 Max三家执行与约束完全相同，主榜并列98.07分。

这种结构说明，当执行维度饱和后，材料约束每提升1分，对主榜的贡献约为0.45分。文心一言4.5今日约束97.2，较昨日提升8.5分，直接推动主榜上涨4.5分，验证了这一权重关系。

Gemini 3.1 Pro的异常结构

Gemini 3.1 Pro是唯一执行维度只有50分的模型，同时约束92.9分仍高于GPT-o3的82.4分。这导致其主榜69.31分远低于第十名的92.08分。执行维度50分意味着在10道代码执行题目中可能只答对一半，属于单日极端波动。

对比昨日数据，Gemini 3.1 Pro昨日执行应为100分，今日直接腰斩，材料约束却只下降0.9分，说明问题集中在代码执行环节，而非整体能力退化。

GPT-o3与Claude Sonnet的约束下滑

GPT-o3材料约束从昨日97.5分跌至82.4分，单日下跌15.1分，主榜随之下降6.8分。Claude Sonnet 4.6约束从97.5分跌至86.7分，下跌10.8分，主榜下降4.9分。两者执行维度仍保持100分，说明问题集中在材料约束这一侧榜维度。

DeepSeek V4 Pro、Grok 4、豆包 Pro三家约束分数分别为93.8、92.4、94.3，均处于中游区间，主榜分数稳定在97分左右，未出现剧烈波动。

稳定性与可用性信号

今日数据中，Gemini 3.1 Pro的执行维度标准差显著高于其他模型，稳定性维度仅31.7分，印证了其单日分数波动较大的特征。其他10个模型执行维度全为100分，显示出更高的一致性。

执行维度一旦崩盘，材料约束再高也无法挽回主榜排名。

Claude Opus 4.7连续保持双维度100分，依然是目前唯一在Smoke轻量评测中实现满分的模型。

数据来源：赢政指数 (YZ Index) | Run #198 | 查看原始数据

Gemini 3.1 Pro 执行暴跌50分，主榜直接掉到第11

执行与约束的结构差异决定排名

Gemini 3.1 Pro的异常结构

GPT-o3与Claude Sonnet的约束下滑

稳定性与可用性信号

相关文章