文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

2026年5月30日 17 约2分钟 Winzheng Index

文心一言代码执行 Smoke评测 GPT-o3 Claude领跑

Smoke今日轻量评测最刺眼的数据是文心一言4.5执行分从昨日的100直接跌至50，主榜从73.96附近暴跌11分，来到62.96。这不是小幅波动，而是核心能力的一次明显崩盘。

执行分腰斩背后：文心一言的异常信号

执行维度占主榜权重55%，文心一言本次50分意味着10道代码执行题目中至少一半未能通过。结合昨日对比，执行维度单日-50，约束维度反而微涨，说明问题集中于代码生成与验证环节。可能的原因包括模型更新后对工具调用格式的兼容性下降，或内部安全策略收紧导致代码输出被截断。无论哪种情况，这都暴露了其工程一致性不足。

GPT-o3与GPT-5.5的同步回血

GPT-o3主榜单日上涨35.8分，执行维度+50、约束维度+18.5，几乎把昨日的低谷全部填平。GPT-5.5同样上涨13.4分，约束维度提升29.8分。两款模型同时回升，指向OpenAI近期对推理链路的统一优化。值得注意的是，它们的材料约束分数仍与Claude存在2-3分差距，说明在严格遵循用户材料、不编造内容这一维度上仍有追赶空间。

Claude双雄继续垄断前二

Claude Opus 4.7主榜99.42分，执行100、约束98.7，连续多日稳居第一。Claude Sonnet 4.6紧随其后99.01分。两款模型的材料约束均在97以上，远超第三梯队。这再次验证了Anthropic在对齐与约束方面的长期积累。豆包Pro则以98.43分挤进前五，约束96.5分且诚信从warn转为pass，显示其在中文场景下的材料遵循能力已接近国际一线。

中腰部模型的集体瓶颈

Gemini 3.1 Pro与Qwen3 Max主榜均在92分左右，约束分数停留在82-83区间，与前五的差距主要来自材料约束而非执行。DeepSeek V4 Pro约束79.8分，同样卡在这一瓶颈。行业正在形成明显分层：前五模型已把执行维度做到接近满分，下一阶段竞争将完全围绕材料约束展开。

执行分可以快速修复，约束能力却需要长期对齐投入。

今日数据再次印证这一判断。文心一言若想重返第一梯队，必须在下一次更新中解决执行一致性问题，否则将继续被拉开距离。

数据来源：赢政指数 (YZ Index) | Run #138 | 查看原始数据

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

执行分腰斩背后：文心一言的异常信号

GPT-o3与GPT-5.5的同步回血

Claude双雄继续垄断前二

中腰部模型的集体瓶颈

相关文章