WDCD 方法论

Winzheng Dynamic Contextual Decay — 三轮次设计和评分机制

测试概要

WDCD是一个测试框架，用于测量AI模型在多轮次对话中能否维持约束。

大多数基准测试评测的是单轮回答质量，但在实际业务使用中，「最初给出的约束在对话持续时能否继续遵守」才是关键。WDCD就是定量地测量这种能力。

每个测试用例由以下三轮次构成：

提示包含明确约束条件的提示词。确认AI能否正确理解约束并生成符合要求的回答。此处的得分作为「基线」。

通过相关的后续问题继续对话。测量在添加新的上下文信息时，能否维持原有的约束。

引入可能与约束矛盾的指令，或导致遗忘约束的长上下文。测量「守约能力」的极限。R1→R3的评分差即为「衰减率」。

每轮次的回答按以下标准以0〜10分进行评分：

综合评分是三轮次的加权平均。R1反映基础能力，R2·R3反映维持能力，因此后半轮次的权重更大。

衰减率 = (R1平均 - R3平均) / R1平均 × 100%。衰减率越低，表示「守约能力」越强。

测试用例按以下场景分组进行分类。每个分组均基于实际业务用例设计：

能否在整个对话中维持输出格式（JSON、表格形式、字数限制等）

在对话中能否不破坏设定的角色、语气、立场

能否一贯地应用「如果A则不做B」等逻辑规则

能否遵守「不涉及此话题」「在此范围内回答」等边界

能否维持文体、敬语等级、专业术语使用等风格规则

能否遵守不包含特定信息、避免特定表述等限制

能否遵守预算上限、字数、项目数等数值约束

能否遵守时间序列一致性、期限、顺序等时间相关规则