GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

2026年6月2日 20 约1分钟 Winzheng Index

GPT-5.5 材料约束 Smoke评测代码执行模型分化

今日Smoke轻量评测最直接的发现是：代码执行能力已不再是前七名模型的区分点，所有模型均拿到100分，排名完全由材料约束得分决定。

分数公式中代码执行权重0.55，材料约束权重0.45。当前前七模型执行全满分，材料约束从71分（GPT-5.5）一路滑落到55分（DeepSeek V4 Pro），直接拉开主榜差距。GPT-5.5凭借71分的约束成绩拿下86.95分，第二名GPT-o3约束仅66.8分，落后近2分。

这种现象说明，2026年主流模型在代码执行任务上已普遍达到高水准，下一阶段竞争焦点已转向对用户指令与上下文的严格遵循能力。

Claude Opus 4.7、<|eos|>

GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大