测评 GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大 今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。 GPT-5.5 材料约束 Smoke评测 代码执行 8小时前 41