模型并列相关资讯

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍