测评 9模型并列主榜77.5,代码执行满分材料约束却只剩50 今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。 代码执行 材料约束 Claude Opus 4.7 Smoke评测 10小时前 52