WDCD Framework

测量无人测量的能力

WDCD（Winzheng Dynamic Contextual Decay）是全球首个系统性测量AI在多轮次对话中持续遵守约束的能力的框架。

3轮次对话

30约束测试题目

5+场景分组

0AI审判

为什么要做WDCD

现有的AI基准测试（MMLU、HumanEval、MT-Bench等）测量的是单轮的知识、推理、编程能力。然而，在实际业务运用中，另一类问题频繁出现：

随着对话变长，最初设定的约束（输出格式、禁止事项等）会逐渐被遗忘

设定的角色在数轮后崩塌，回归到原本的文体

当用户强烈要求时，超越最初设定的边界进行回答

现有的基准测试无法检测这些问题。所以，我们决定自己来测量。

PRINCIPLE 01

不追求学术上的优美，而是再现实际业务场景中发生的问题。测试用例全部源自实务。

PRINCIPLE 02

不让AI评测AI。所有评分都基于人工判定标准。「AI审判 = 0」是WDCD的原则。

PRINCIPLE 03

不是单一评分，而是可视化R1→R2→R3的变化模式。明确「在哪里崩塌」。

PRINCIPLE 04

可在同一提示词、同一条件下重新测试。结果全部公开，第三方可验证。

WDCD测量的是「维持的能力」。其他基准测试测量的是「能不能做到」，而WDCD测量的是「做到的事情能否持续」。

即使是在单轮中返回完美回答的模型，也无法保证5轮后还能遵守同样的约束。WDCD就是将这种差异定量化。

目前的测试规模处于试点阶段（30题·3轮次），但今后计划扩充场景分组和增加轮次数。

最新的WDCD测试结果和场景分类分析

排行榜方法论失败案例