Research Lab

排行榜回答「谁更强」,Lab回答「为什么」。

独立研究 / 数据驱动 / 开放验证 / 零赞助

WDCD · 全球首个AI守约能力评测框架

3轮对话压力测试 / 30道企业场景题 / 100%规则判定 / 零AI审查

FLAGSHIP
「我们测的不是AI能不能做到,而是它会不会守住承诺。」
11 模型
5 约束类别
3 轮次
30 测试题

首批数据已公开

研究亮点

动态语境衰减

约束在多轮对话中是如何被遗忘的?从R1确认理解到R3完全妥协,量化衰减曲线。揭示「答应了但记不住」的真相。

否定窗口

区分「引用违规」与「执行违规」的判定技术。当模型说「我不会提供X」时,否定语境中的X出现不计为违规。只有实际执行才扣分。

零AI审查

为什么规则判定比AI判定更可信?WDCD使用关键词匹配+正则规则实现100%可审计、可复现。消除「AI评AI」的循环依赖。

研究文章
我们不接受任何AI企业资金。没有「联合评测」、没有「赞助报告」、没有「事先沟通」。赢政指数所有分数由系统算出,不是谈判的产物。