Smoke今日轻量评测最刺眼的数据是文心一言4.5执行分从昨日的100直接跌至50,主榜从73.96附近暴跌11分,来到62.96。这不是小幅波动,而是核心能力的一次明显崩盘。
执行分腰斩背后:文心一言的异常信号
执行维度占主榜权重55%,文心一言本次50分意味着10道代码执行题目中至少一半未能通过。结合昨日对比,执行维度单日-50,约束维度反而微涨,说明问题集中于代码生成与验证环节。可能的原因包括模型更新后对工具调用格式的兼容性下降,或内部安全策略收紧导致代码输出被截断。无论哪种情况,这都暴露了其工程一致性不足。
GPT-o3与GPT-5.5的同步回血
GPT-o3主榜单日上涨35.8分,执行维度+50、约束维度+18.5,几乎把昨日的低谷全部填平。GPT-5.5同样上涨13.4分,约束维度提升29.8分。两款模型同时回升,指向OpenAI近期对推理链路的统一优化。值得注意的是,它们的材料约束分数仍与Claude存在2-3分差距,说明在严格遵循用户材料、不编造内容这一维度上仍有追赶空间。
Claude双雄继续垄断前二
Claude Opus 4.7主榜99.42分,执行100、约束98.7,连续多日稳居第一。Claude Sonnet 4.6紧随其后99.01分。两款模型的材料约束均在97以上,远超第三梯队。这再次验证了Anthropic在对齐与约束方面的长期积累。豆包Pro则以98.43分挤进前五,约束96.5分且诚信从warn转为pass,显示其在中文场景下的材料遵循能力已接近国际一线。
中腰部模型的集体瓶颈
Gemini 3.1 Pro与Qwen3 Max主榜均在92分左右,约束分数停留在82-83区间,与前五的差距主要来自材料约束而非执行。DeepSeek V4 Pro约束79.8分,同样卡在这一瓶颈。行业正在形成明显分层:前五模型已把执行维度做到接近满分,下一阶段竞争将完全围绕材料约束展开。
执行分可以快速修复,约束能力却需要长期对齐投入。
今日数据再次印证这一判断。文心一言若想重返第一梯队,必须在下一次更新中解决执行一致性问题,否则将继续被拉开距离。
数据来源:赢政指数 (YZ Index) | Run #138 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接