GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零

GLM-4.6 在 2026-07-05 Run#214 的 Smoke 快测中,主榜得分 60.04 分,代码执行 88.70 分,材料约束 25.00 分,诚信评级 fail,探针得分 0.00。

分数结构反差明显

代码执行维度 88.70 分显示该模型在真实 Python 沙箱运行代码的通过率较高,而材料约束维度仅 25.00 分,表明其在长文档引用核验任务中严格基于给定材料回答并正确引用的能力较弱。两个可审计主榜维度的得分差距达到 63.7 分,构成本次测试最突出的结构特征。

诚信探针触发机制

诚信评级 fail 表示模型在金丝雀探针检测中把虚构实体当作真实引用来源,GLM-4.6 本次探针得分为 0.00。同日其余 10 个模型中,GPT-5.5 与 GPT-o3 探针得分 90.00,豆包 Pro、Gemini 3.1 Pro、Gemini 2.5 Pro、Claude Sonnet 4.6、Claude Opus 4.7、Qwen3 Max 六个模型均为 80.00,DeepSeek V4 Pro 为 65.00,Grok 4 为 warn(45.00)。GLM-4.6 是唯一 fail 模型。

探针得分只属于诚信维度,与材料约束分数无关。

历史 run 记录

GLM-4.6 在 2026-07-05 Run#214 与 2026-07-04 Run#212 两次测试中均触发诚信 fail,探针得分均为 0.00。2026-07-04 Run#213 全维度 0 分,因评测失败被标记为无效数据,不作为对比基线。两次有效 run 均出现诚信 fail,需持续观察。

维度独立性说明

代码执行、材料约束、诚信评级为三个独立维度。材料约束 25.00 分反映模型在给定材料下的引用准确性,诚信 fail 则单独指向编造来源的行为,二者不可混同。当前数据仅支持对当期 Smoke 快测结果的分析,不支持趋势推断。

基于 2026-07-05 Run#214 数据,GLM-4.6 在材料约束与诚信两个维度同时出现明显短板,需持续观察其后续 Smoke 测试表现。


数据来源:赢政指数 (YZ Index) | Run #214 | 查看原始数据