9模型并列主榜77.5，代码执行满分材料约束却只剩50

2026年6月5日 26 约2分钟 Winzheng Index

代码执行材料约束 Claude Opus 4.7 Smoke评测模型饱和

2026年6月5日的Smoke轻量评测结果显示，11款模型中有9款在主榜上并列77.5分，形成了罕见的平局。它们共同特征是代码执行维度全部满分100，材料约束维度却一致只有50分。

core_overall计算公式为0.55×代码执行+0.45×材料约束。9款模型执行维度拉满，约束维度却只拿一半，说明测试中代码任务已被当前主流模型基本攻克，而材料约束仍停留在半程水平。

Claude Opus 4.7、DeepSeek V4 Pro、豆包Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、Grok 4、Qwen3 Max全部命中这一分数线。它们在昨日评测中同样保持相同表现，连续两天无波动。

材料约束维度主要考察模型是否严格按照给定材料回答、不编造、不越界。50分意味着模型在半数题目上仍会出现轻微偏离或补充外部知识。这与代码执行的满分形成鲜明对比，说明模型在“能写代码”和“只用给定材料写代码”之间仍有明显差距。

文心一言4.5材料约束仅30分，成为唯一低于50分的模型，直接拉低主榜至68.5。Claude Sonnet 4.6则在执行维度也只拿到50分，整体主榜50分，落后第一梯队27.5分。

9款模型同时在执行维度拿到满分，表明Smoke当前代码题目对头部模型已失去区分度。未来评测若不提升题目难度或增加更复杂的多文件依赖场景，执行维度将继续保持满分扎堆。

材料约束50分的普遍水平则提示，模型训练中“忠实于上下文”的对齐仍不充分。这与目前行业强调的RAG、Agent工具调用场景高度相关——模型越敢“发挥”，越容易在约束维度丢分。

当9个头部模型在同一套10题中给出完全一致的分数分布时，真正暴露的不是模型能力，而是评测本身需要迭代。

今日评测无异常信号，所有模型与昨日分数完全一致，稳定性维度暂无新数据更新。

短期看，材料约束将成为下一阶段模型迭代的核心战场；长期看，Smoke需要更快推出更难的执行题目，否则并列现象只会越来越多。

相关文章