测评 三大模型并列 Smoke 榜首 执行满分但约束警示 今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍 Claude Opus 材料约束 Smoke 评测 代码执行 8小时前 36