约束维度相关资讯

GPT-5.5 执行满分 86.95 分领跑 Smoke 评测，约束短板暴露

2026-07-03 Smoke 评测显示，GPT-5.5 以执行 100 分、约束 71 分拿下主榜 86.95 分首位。Claude Sonnet 4.6 紧随其后，主榜 86.12 分。豆包 Pro 则以约束 81.7 分反超执行表现