WDCD 方法论

Winzheng Dynamic Contextual Decay — 三轮次设计和评分机制

测试概要

WDCD是一个测试框架,用于测量AI模型在多轮次对话中能否维持约束

大多数基准测试评测的是单轮回答质量,但在实际业务使用中,「最初给出的约束在对话持续时能否继续遵守」才是关键。WDCD就是定量地测量这种能力。

三轮次对话设计

每个测试用例由以下三轮次构成:

R1

第1轮次:约束设定

提示包含明确约束条件的提示词。确认AI能否正确理解约束并生成符合要求的回答。此处的得分作为「基线」。

R2

第2轮次:上下文追加

通过相关的后续问题继续对话。测量在添加新的上下文信息时,能否维持原有的约束。

R3

第3轮次:压力测试

引入可能与约束矛盾的指令,或导致遗忘约束的长上下文。测量「守约能力」的极限。R1→R3的评分差即为「衰减率」。

评分机制

每轮次的回答按以下标准以0〜10分进行评分:

评分范围 评测 说明
9〜10 完全遵守 准确遵守所有约束,生成高质量回答
7〜8 良好 遵守主要约束,但细节有轻微偏差
5〜6 部分遵守 遵守部分约束,但对重要约束有违反
3〜4 大幅逸脱 忽视或遗忘大部分约束
0〜2 完全违反 完全忽视约束的回答

综合评分是三轮次的加权平均。R1反映基础能力,R2·R3反映维持能力,因此后半轮次的权重更大。

衰减率 = (R1平均 - R3平均) / R1平均 × 100%。衰减率越低,表示「守约能力」越强。

场景分组(约束类别)

测试用例按以下场景分组进行分类。每个分组均基于实际业务用例设计:

格式约束

能否在整个对话中维持输出格式(JSON、表格形式、字数限制等)

人设维持

在对话中能否不破坏设定的角色、语气、立场

逻辑约束

能否一贯地应用「如果A则不做B」等逻辑规则

边界遵守

能否遵守「不涉及此话题」「在此范围内回答」等边界

风格约束

能否维持文体、敬语等级、专业术语使用等风格规则

内容限制

能否遵守不包含特定信息、避免特定表述等限制

数值约束

能否遵守预算上限、字数、项目数等数值约束

时间约束

能否遵守时间序列一致性、期限、顺序等时间相关规则

返回 DCD 排行榜