Smoke 今日凌晨的 10 题快测把 AI 模型的执行短板直接暴露在阳光下。Grok 4 以 97.44 分(执行 100、约束 94.3)登顶,Gemini 3.1 Pro 仅差 0.23 分紧随其后,而 GPT-o3 主榜直接从昨日的 94.53 分跌至 66.43 分,暴跌 28.1 分。
执行权重 0.55,代码题成生死线
核心公式 core_overall = 0.55×代码执行 + 0.45×材料约束,让今天的排名几乎由执行分直接决定。Grok 4、Gemini 3.1 Pro、Gemini 2.5 Pro、DeepSeek V4 Pro、豆包 Pro 五款模型全部拿到满分 100,余下六款模型却集体掉到 50 分。GPT-o3、GPT-5.5、Qwen3 Max、文心一言 4.5、Claude Opus 4.7、Claude Sonnet 4.6 六款模型在代码执行上同时失守,说明今日测试集中出现了需要多步推理与工具调用的题目。
Claude 与 GPT 系列为何集体失守
Claude Opus 4.7 和 Sonnet 4.6 主榜分别下跌 22.6 分和 22.8 分,执行分从 100 跌至 50,材料约束却小幅上升。结合昨日数据看,两款模型的执行波动极大,极可能是在新指令或沙箱环境变化下,拒绝执行或生成不完整代码导致扣分。GPT-o3 跌幅最大,执行分腰斩的同时,材料约束也从昨日高位回落,显示其在代码与事实双重压力下同时失守。
反观 Grok 4 与 Gemini 系列,执行分保持满分,材料约束也维持在 92 分以上,说明其在今日 10 题中既能写出可运行代码,又能严格遵守材料边界。DeepSeek V4 Pro 虽排第四,但约束分仅 86.2,与前三名仍有明显差距,未来若想冲击前三,必须在约束上再提升 7-8 分。
异常信号背后的行业信号
今日六款模型执行分集体腰斩,很难用“随机波动”简单解释。更可能的背景是:部分厂商在 5 月中旬集中推送了安全或对齐更新,这些更新往往会提高模型的“谨慎度”,却直接损害了代码执行的连贯性。Claude 系列与 GPT 系列同时出现 warn→pass 的诚信评级变化,也印证了模型行为被重新校准。
豆包 Pro 材料约束暴跌 15.2 分,则更像是单一题目的极端扣分,需持续观察是否为数据污染或评测题库更新导致。
执行能力正在成为 2026 年中场战的真正分水岭。
今日 Smoke 数据再次证明:约束分再高,若执行分掉到 50,整体排名就会被前排模型甩开 20 分以上。Grok 4 与 Gemini 目前在代码执行上建立了明显护城河,Claude 与 GPT 系若不在下一次迭代中修复执行连贯性,恐将长期被挤出前五。
数据来源:赢政指数 (YZ Index) | Run #123 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接