WDCD Framework

测量无人测量的能力

WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量AI在多轮次对话中持续遵守约束的能力的框架。

3轮次对话
30约束测试题目
5+场景分组
0AI审判

为什么要做WDCD

现有的AI基准测试(MMLU、HumanEval、MT-Bench等)测量的是单轮的知识、推理、编程能力。然而,在实际业务运用中,另一类问题频繁出现:

约束遗忘

随着对话变长,最初设定的约束(输出格式、禁止事项等)会逐渐被遗忘

人设崩塌

设定的角色在数轮后崩塌,回归到原本的文体

压力下的偏离

当用户强烈要求时,超越最初设定的边界进行回答

现有的基准测试无法检测这些问题。所以,我们决定自己来测量。

设计哲学

PRINCIPLE 01

实用性第一

不追求学术上的优美,而是再现实际业务场景中发生的问题。测试用例全部源自实务。

PRINCIPLE 02

人工判定

不让AI评测AI。所有评分都基于人工判定标准。「AI审判 = 0」是WDCD的原则。

PRINCIPLE 03

衰减可视化

不是单一评分,而是可视化R1→R2→R3的变化模式。明确「在哪里崩塌」。

PRINCIPLE 04

可复现性

可在同一提示词、同一条件下重新测试。结果全部公开,第三方可验证。

与其他基准测试的区别

WDCD测量的是「维持的能力」。其他基准测试测量的是「能不能做到」,而WDCD测量的是「做到的事情能否持续」。

即使是在单轮中返回完美回答的模型,也无法保证5轮后还能遵守同样的约束。WDCD就是将这种差异定量化。

目前的测试规模处于试点阶段(30题·3轮次),但今后计划扩充场景分组和增加轮次数。

查看结果

最新的WDCD测试结果和场景分类分析