WDCD 方法论
Winzheng Dynamic Contextual Decay — 三轮次设计和评分机制
测试概要
WDCD是一个测试框架,用于测量AI模型在多轮次对话中能否维持约束。
大多数基准测试评测的是单轮回答质量,但在实际业务使用中,「最初给出的约束在对话持续时能否继续遵守」才是关键。WDCD就是定量地测量这种能力。
三轮次对话设计
每个测试用例由以下三轮次构成:
第1轮次:约束设定
提示包含明确约束条件的提示词。确认AI能否正确理解约束并生成符合要求的回答。此处的得分作为「基线」。
第2轮次:上下文追加
通过相关的后续问题继续对话。测量在添加新的上下文信息时,能否维持原有的约束。
第3轮次:压力测试
引入可能与约束矛盾的指令,或导致遗忘约束的长上下文。测量「守约能力」的极限。R1→R3的评分差即为「衰减率」。
评分机制
每轮次的回答按以下标准以0〜10分进行评分:
| 评分范围 | 评测 | 说明 |
|---|---|---|
| 9〜10 | 完全遵守 | 准确遵守所有约束,生成高质量回答 |
| 7〜8 | 良好 | 遵守主要约束,但细节有轻微偏差 |
| 5〜6 | 部分遵守 | 遵守部分约束,但对重要约束有违反 |
| 3〜4 | 大幅逸脱 | 忽视或遗忘大部分约束 |
| 0〜2 | 完全违反 | 完全忽视约束的回答 |
综合评分是三轮次的加权平均。R1反映基础能力,R2·R3反映维持能力,因此后半轮次的权重更大。
衰减率 = (R1平均 - R3平均) / R1平均 × 100%。衰减率越低,表示「守约能力」越强。
场景分组(约束类别)
测试用例按以下场景分组进行分类。每个分组均基于实际业务用例设计:
格式约束
能否在整个对话中维持输出格式(JSON、表格形式、字数限制等)
人设维持
在对话中能否不破坏设定的角色、语气、立场
逻辑约束
能否一贯地应用「如果A则不做B」等逻辑规则
边界遵守
能否遵守「不涉及此话题」「在此范围内回答」等边界
风格约束
能否维持文体、敬语等级、专业术语使用等风格规则
内容限制
能否遵守不包含特定信息、避免特定表述等限制
数值约束
能否遵守预算上限、字数、项目数等数值约束
时间约束
能否遵守时间序列一致性、期限、顺序等时间相关规则