2026-06-26 Smoke轻量评测中,Gemini 3.1 Pro执行维度从100分直接跌至50分,主榜从昨日98.91分暴跌29.6分至69.31分,成为11个模型里唯一执行维度不及格的模型。
执行与约束的结构差异决定排名
今日主榜前十名中,10个模型代码执行全部拿到100分,唯一变量是材料约束。Claude Opus 4.7以执行100、约束100拿下主榜100分;文心一言4.5执行100、约束97.2,主榜98.74分;Gemini 2.5 Pro、GPT-5.5、Qwen3 Max三家执行与约束完全相同,主榜并列98.07分。
这种结构说明,当执行维度饱和后,材料约束每提升1分,对主榜的贡献约为0.45分。文心一言4.5今日约束97.2,较昨日提升8.5分,直接推动主榜上涨4.5分,验证了这一权重关系。
Gemini 3.1 Pro的异常结构
Gemini 3.1 Pro是唯一执行维度只有50分的模型,同时约束92.9分仍高于GPT-o3的82.4分。这导致其主榜69.31分远低于第十名的92.08分。执行维度50分意味着在10道代码执行题目中可能只答对一半,属于单日极端波动。
对比昨日数据,Gemini 3.1 Pro昨日执行应为100分,今日直接腰斩,材料约束却只下降0.9分,说明问题集中在代码执行环节,而非整体能力退化。
GPT-o3与Claude Sonnet的约束下滑
GPT-o3材料约束从昨日97.5分跌至82.4分,单日下跌15.1分,主榜随之下降6.8分。Claude Sonnet 4.6约束从97.5分跌至86.7分,下跌10.8分,主榜下降4.9分。两者执行维度仍保持100分,说明问题集中在材料约束这一侧榜维度。
DeepSeek V4 Pro、Grok 4、豆包 Pro三家约束分数分别为93.8、92.4、94.3,均处于中游区间,主榜分数稳定在97分左右,未出现剧烈波动。
稳定性与可用性信号
今日数据中,Gemini 3.1 Pro的执行维度标准差显著高于其他模型,稳定性维度仅31.7分,印证了其单日分数波动较大的特征。其他10个模型执行维度全为100分,显示出更高的一致性。
执行维度一旦崩盘,材料约束再高也无法挽回主榜排名。
Claude Opus 4.7连续保持双维度100分,依然是目前唯一在Smoke轻量评测中实现满分的模型。
数据来源:赢政指数 (YZ Index) | Run #198 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接