Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

2026年5月19日 16 约3分钟 Winzheng Index

Grok 4 代码执行 GPT-o3 Claude 系列模型波动

Smoke 今日凌晨的 10 题快测把 AI 模型的执行短板直接暴露在阳光下。Grok 4 以 97.44 分（执行 100、约束 94.3）登顶，Gemini 3.1 Pro 仅差 0.23 分紧随其后，而 GPT-o3 主榜直接从昨日的 94.53 分跌至 66.43 分，暴跌 28.1 分。

执行权重 0.55，代码题成生死线

核心公式 core_overall = 0.55×代码执行 + 0.45×材料约束，让今天的排名几乎由执行分直接决定。Grok 4、Gemini 3.1 Pro、Gemini 2.5 Pro、DeepSeek V4 Pro、豆包 Pro 五款模型全部拿到满分 100，余下六款模型却集体掉到 50 分。GPT-o3、GPT-5.5、Qwen3 Max、文心一言 4.5、Claude Opus 4.7、Claude Sonnet 4.6 六款模型在代码执行上同时失守，说明今日测试集中出现了需要多步推理与工具调用的题目。

Claude 与 GPT 系列为何集体失守

Claude Opus 4.7 和 Sonnet 4.6 主榜分别下跌 22.6 分和 22.8 分，执行分从 100 跌至 50，材料约束却小幅上升。结合昨日数据看，两款模型的执行波动极大，极可能是在新指令或沙箱环境变化下，拒绝执行或生成不完整代码导致扣分。GPT-o3 跌幅最大，执行分腰斩的同时，材料约束也从昨日高位回落，显示其在代码与事实双重压力下同时失守。

反观 Grok 4 与 Gemini 系列，执行分保持满分，材料约束也维持在 92 分以上，说明其在今日 10 题中既能写出可运行代码，又能严格遵守材料边界。DeepSeek V4 Pro 虽排第四，但约束分仅 86.2，与前三名仍有明显差距，未来若想冲击前三，必须在约束上再提升 7-8 分。

异常信号背后的行业信号

今日六款模型执行分集体腰斩，很难用“随机波动”简单解释。更可能的背景是：部分厂商在 5 月中旬集中推送了安全或对齐更新，这些更新往往会提高模型的“谨慎度”，却直接损害了代码执行的连贯性。Claude 系列与 GPT 系列同时出现 warn→pass 的诚信评级变化，也印证了模型行为被重新校准。

豆包 Pro 材料约束暴跌 15.2 分，则更像是单一题目的极端扣分，需持续观察是否为数据污染或评测题库更新导致。

执行能力正在成为 2026 年中场战的真正分水岭。

今日 Smoke 数据再次证明：约束分再高，若执行分掉到 50，整体排名就会被前排模型甩开 20 分以上。Grok 4 与 Gemini 目前在代码执行上建立了明显护城河，Claude 与 GPT 系若不在下一次迭代中修复执行连贯性，恐将长期被挤出前五。

数据来源：赢政指数 (YZ Index) | Run #123 | 查看原始数据

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

执行权重 0.55，代码题成生死线

Claude 与 GPT 系列为何集体失守

异常信号背后的行业信号

相关文章