WDCD Framework
测量无人测量的能力
WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量AI在多轮次对话中持续遵守约束的能力的框架。
3轮次对话
30约束测试题目
5+场景分组
0AI审判
为什么要做WDCD
现有的AI基准测试(MMLU、HumanEval、MT-Bench等)测量的是单轮的知识、推理、编程能力。然而,在实际业务运用中,另一类问题频繁出现:
约束遗忘
随着对话变长,最初设定的约束(输出格式、禁止事项等)会逐渐被遗忘
人设崩塌
设定的角色在数轮后崩塌,回归到原本的文体
压力下的偏离
当用户强烈要求时,超越最初设定的边界进行回答
现有的基准测试无法检测这些问题。所以,我们决定自己来测量。
设计哲学
PRINCIPLE 01
实用性第一
不追求学术上的优美,而是再现实际业务场景中发生的问题。测试用例全部源自实务。
PRINCIPLE 02
人工判定
不让AI评测AI。所有评分都基于人工判定标准。「AI审判 = 0」是WDCD的原则。
PRINCIPLE 03
衰减可视化
不是单一评分,而是可视化R1→R2→R3的变化模式。明确「在哪里崩塌」。
PRINCIPLE 04
可复现性
可在同一提示词、同一条件下重新测试。结果全部公开,第三方可验证。
与其他基准测试的区别
WDCD测量的是「维持的能力」。其他基准测试测量的是「能不能做到」,而WDCD测量的是「做到的事情能否持续」。
即使是在单轮中返回完美回答的模型,也无法保证5轮后还能遵守同样的约束。WDCD就是将这种差异定量化。
目前的测试规模处于试点阶段(30题·3轮次),但今后计划扩充场景分组和增加轮次数。
查看结果
最新的WDCD测试结果和场景分类分析