模型饱和相关资讯

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。