WDCD核心概念:约束衰减,大模型时代的新故障类型
约束衰减不是简单遗忘也不是传统幻觉,而是模型在多轮互动中把硬边界逐步软化的系统性故障。Run #105中110个案例有59例呈现完整衰减曲线覆盖全部11个模型。Grok-4衰减最剧烈,ERNIE 4.5低起高守R3达0.8。
约束衰减不是简单遗忘也不是传统幻觉,而是模型在多轮互动中把硬边界逐步软化的系统性故障。Run #105中110个案例有59例呈现完整衰减曲线覆盖全部11个模型。Grok-4衰减最剧烈,ERNIE 4.5低起高守R3达0.8。
赢政指数 v7 推出实验性维度 DCD(动态语境衰变),首次系统性测量大模型在多轮对话中守住初始约束的能力。30 道题、三轮对话、五类场景、规则判分零 AI 介入——这是国内外公开评测体系中第一个针对"AI 在长对话中会不会忘掉自己承诺过什