测评 11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分 11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成 代码执行 材料约束 Python 闭包 模型一致性 10小时前 65