三大模型并列 Smoke 榜首执行满分但约束警示

2026年6月3日 9 约2分钟 Winzheng Index

Claude Opus 材料约束 Smoke 评测代码执行模型并列

Smoke 今日快测结果显示，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 三模型主榜得分同为 87.76，并列第一。核心原因是三者代码执行维度全部拿满 100 分，而材料约束维度均为 72.8，触发 warn 信号。

前八名模型代码执行全部 100 分，说明当前主流模型在简单代码任务上已趋于饱和。真正拉开差距的只有材料约束一项。Claude 与 GPT-5.5 的 72.8 分领先豆包 Pro 的 70.8 分和 Gemini 2.5 Pro 的 70 分，差距虽小，却直接决定了前三名的归属。

材料约束维度主要考察模型对给定材料的忠实程度与边界控制。72.8 分对应的 warn 评级，意味着这些模型在部分题目中出现了轻微的过度推断或信息外溢。相比之下，DeepSeek V4 Pro 与 Grok 4 因约束维度触发 fail，直接跌至主榜第 9-10 名。

文心一言 4.5 执行仅 50 分，整体主榜 56.3，垫底明显。该模型在代码执行环节已无法与主流模型同场竞技，暴露了其在工程任务上的长期短板。

今日无任何模型出现显著波动，所有模型与昨日得分一致，稳定性维度暂无新信号。行业动态方面，Claude 系列与 GPT-5.5 同时在约束维度卡在同一分数，暗示当前训练范式对“材料边界控制”的提升已进入瓶颈期。

执行 100 分只是及格线，约束 warn 才是真实天花板。

短期内，模型迭代重点仍将集中于材料约束的精细化，否则再高的执行分也无法推动主榜整体上移。

三大模型并列 Smoke 榜首 执行满分但约束警示