9模型并列主榜77.5,代码执行满分材料约束却只剩50

2026年6月5日的Smoke轻量评测结果显示,11款模型中有9款在主榜上并列77.5分,形成了罕见的平局。它们共同特征是代码执行维度全部满分100,材料约束维度却一致只有50分。

并列背后的真实信号

core_overall计算公式为0.55×代码执行+0.45×材料约束。9款模型执行维度拉满,约束维度却只拿一半,说明测试中代码任务已被当前主流模型基本攻克,而材料约束仍停留在半程水平。

Claude Opus 4.7、DeepSeek V4 Pro、豆包Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、Grok 4、Qwen3 Max全部命中这一分数线。它们在昨日评测中同样保持相同表现,连续两天无波动。

材料约束为何集体卡在50分

材料约束维度主要考察模型是否严格按照给定材料回答、不编造、不越界。50分意味着模型在半数题目上仍会出现轻微偏离或补充外部知识。这与代码执行的满分形成鲜明对比,说明模型在“能写代码”和“只用给定材料写代码”之间仍有明显差距。

文心一言4.5材料约束仅30分,成为唯一低于50分的模型,直接拉低主榜至68.5。Claude Sonnet 4.6则在执行维度也只拿到50分,整体主榜50分,落后第一梯队27.5分。

行业意义:基准已进入饱和阶段

9款模型同时在执行维度拿到满分,表明Smoke当前代码题目对头部模型已失去区分度。未来评测若不提升题目难度或增加更复杂的多文件依赖场景,执行维度将继续保持满分扎堆。

材料约束50分的普遍水平则提示,模型训练中“忠实于上下文”的对齐仍不充分。这与目前行业强调的RAG、Agent工具调用场景高度相关——模型越敢“发挥”,越容易在约束维度丢分。

当9个头部模型在同一套10题中给出完全一致的分数分布时,真正暴露的不是模型能力,而是评测本身需要迭代。

今日评测无异常信号,所有模型与昨日分数完全一致,稳定性维度暂无新数据更新。

短期看,材料约束将成为下一阶段模型迭代的核心战场;长期看,Smoke需要更快推出更难的执行题目,否则并列现象只会越来越多。


数据来源:赢政指数 (YZ Index) | Run #148 | 查看原始数据