三大模型并列 Smoke 榜首 执行满分但约束警示

Smoke 今日快测结果显示,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 三模型主榜得分同为 87.76,并列第一。核心原因是三者代码执行维度全部拿满 100 分,而材料约束维度均为 72.8,触发 warn 信号。

执行满分已成标配,约束成唯一分水岭

前八名模型代码执行全部 100 分,说明当前主流模型在简单代码任务上已趋于饱和。真正拉开差距的只有材料约束一项。Claude 与 GPT-5.5 的 72.8 分领先豆包 Pro 的 70.8 分和 Gemini 2.5 Pro 的 70 分,差距虽小,却直接决定了前三名的归属。

材料约束维度主要考察模型对给定材料的忠实程度与边界控制。72.8 分对应的 warn 评级,意味着这些模型在部分题目中出现了轻微的过度推断或信息外溢。相比之下,DeepSeek V4 Pro 与 Grok 4 因约束维度触发 fail,直接跌至主榜第 9-10 名。

文心一言执行崩盘,拉开明显断层

文心一言 4.5 执行仅 50 分,整体主榜 56.3,垫底明显。该模型在代码执行环节已无法与主流模型同场竞技,暴露了其在工程任务上的长期短板。

今日无任何模型出现显著波动,所有模型与昨日得分一致,稳定性维度暂无新信号。行业动态方面,Claude 系列与 GPT-5.5 同时在约束维度卡在同一分数,暗示当前训练范式对“材料边界控制”的提升已进入瓶颈期。

执行 100 分只是及格线,约束 warn 才是真实天花板。

短期内,模型迭代重点仍将集中于材料约束的精细化,否则再高的执行分也无法推动主榜整体上移。


数据来源:赢政指数 (YZ Index) | Run #145 | 查看原始数据