测评 GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零 GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构 GLM-4.6 材料约束 诚信评级 Smoke快测 6小时前 66