Research Lab
排行榜回答「谁更强」,Lab回答「为什么」。
独立研究 / 数据驱动 / 开放验证 / 零赞助
研究亮点
动态语境衰减
约束在多轮对话中是如何被遗忘的?从R1确认理解到R3完全妥协,量化衰减曲线。揭示「答应了但记不住」的真相。
否定窗口
区分「引用违规」与「执行违规」的判定技术。当模型说「我不会提供X」时,否定语境中的X出现不计为违规。只有实际执行才扣分。
零AI审查
为什么规则判定比AI判定更可信?WDCD使用关键词匹配+正则规则实现100%可审计、可复现。消除「AI评AI」的循环依赖。
研究文章
报告
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
06-17
报告
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
06-15
报告
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
06-14
报告
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
06-14
报告
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
06-12
报告
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
06-11
我们不接受任何AI企业资金。没有「联合评测」、没有「赞助报告」、没有「事先沟通」。赢政指数所有分数由系统算出,不是谈判的产物。