测评 GPT-5.5 执行满分 86.95 分领跑 Smoke 评测,约束短板暴露 2026-07-03 Smoke 评测显示,GPT-5.5 以执行 100 分、约束 71 分拿下主榜 86.95 分首位。Claude Sonnet 4.6 紧随其后,主榜 86.12 分。豆包 Pro 则以约束 81.7 分反超执行表现 GPT-5.5 代码执行 Smoke 轻量评测 模型结构分析 10小时前 40