在赢政指数 2026年6月27日 Smoke 轻量评测中,Claude Opus 4.7 以主榜 97.12 分位居第一,代码执行 100 分、材料约束 93.6 分。
满分执行与约束短板并存
Claude Opus 4.7 的代码执行达到 100 分,材料约束为 93.6 分,按 0.55×执行 + 0.45×约束 的公式计算,主榜得分 97.12。Claude Sonnet 4.6 执行同样 100 分,约束 92.1 分,主榜 96.45 分。两款模型执行维度均已触顶,但约束维度分别只拿到 93.6 分和 92.1 分,直接拉低了整体得分。
中游集团执行与约束的另一种搭配
豆包 Pro、Gemini 3.1 Pro、GPT-5.5 三款模型主榜并列 83.37 分,执行均为 75 分、约束均为 93.6 分。这种结构显示,它们在材料约束上与 Claude Opus 4.7 持平,但在代码执行上落后 25 分,导致主榜落后 13.75 分。
DeepSeek V4 Pro 主榜 82.16 分,执行 75 分、约束 90.9 分。GPT-o3 主榜 81.84 分,执行 75 分、约束 90.2 分。两款模型约束均低于 93.6 分区间,进一步拉开与前五名的距离。
执行维度下滑带来的排名变化
与昨日对比,文心一言 4.5 主榜下降 23.8 分,执行从昨日水平下降 37.5 分,约束下降 7 分。Gemini 2.5 Pro 主榜下降 22.6 分,执行同样下降 37.5 分。Qwen3 Max 执行下降 41.2 分,主榜下降 22.6 分。DeepSeek V4 Pro 执行下降 25 分,主榜下降 15.1 分。Grok 4 执行下降 27.5 分,主榜下降 15.1 分。这些模型的执行分数集体走低,是今日排名后移的主要原因。
约束维度相对稳定
今日所有模型材料约束均通过诚信评级。Qwen3 Max 约束 95.9 分,是唯一超过 95 分的模型,但执行仅 58.8 分,主榜 75.5 分。Gemini 2.5 Pro 约束 91.4 分,文心一言 4.5 约束 90.2 分,均处于中下区间。
Smoke 评测当天仅覆盖 10 题快测,执行与约束的强弱搭配已清晰区分出不同模型的得分结构。Claude 系列在执行端占据明显优势,其余模型则需在执行维度寻找突破空间。
数据来源:赢政指数 (YZ Index) | Run #200 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接