今日Smoke轻量评测最直接的发现是:代码执行能力已不再是前七名模型的区分点,所有模型均拿到100分,排名完全由材料约束得分决定。
满分执行下的真实排序逻辑
分数公式中代码执行权重0.55,材料约束权重0.45。当前前七模型执行全满分,材料约束从71分(GPT-5.5)一路滑落到55分(DeepSeek V4 Pro),直接拉开主榜差距。GPT-5.5凭借71分的约束成绩拿下86.95分,第二名GPT-o3约束仅66.8分,落后近2分。
这种现象说明,2026年主流模型在代码执行任务上已普遍达到高水准,下一阶段竞争焦点已转向对用户指令与上下文的严格遵循能力。
下半区模型的硬伤
Claude Opus 4.7、<|eos|>
数据来源:赢政指数 (YZ Index) | Run #143 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接