Research Lab

排行榜回答「谁更强」，Lab回答「为什么」。

独立研究 / 数据驱动 / 开放验证 / 零赞助

WDCD · 全球首个AI守约能力评测框架

3轮对话压力测试 / 32道企业场景题 / 100%规则判定 / 零AI审查

FLAGSHIP

「我们测的不是AI能不能做到，而是它会不会守住承诺。」

11 模型

5 约束类别

3 轮次

32 测试题

首批数据已公开

查看排行技术方法论为什么做这个

研究亮点

动态语境衰减

约束在多轮对话中是如何被遗忘的？从R1确认理解到R3完全妥协，量化衰减曲线。揭示「答应了但记不住」的真相。

否定窗口

区分「引用违规」与「执行违规」的判定技术。当模型说「我不会提供X」时，否定语境中的X出现不计为违规。只有实际执行才扣分。

零AI审查

为什么规则判定比AI判定更可信？WDCD使用关键词匹配+正则规则实现100%可审计、可复现。消除「AI评AI」的循环依赖。

研究文章

报告 WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points 06-17 报告 5大模型翻译对决：第25周质量评测，passthrough 以 9 分领跑 06-15 报告 WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop 06-14 报告 WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5% 06-14 报告 Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure 06-12 报告 WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models 06-11

我们不接受任何AI企业资金。没有「联合评测」、没有「赞助报告」、没有「事先沟通」。赢政指数所有分数由系统算出，不是谈判的产物。