Research Lab
排行榜回答「谁更强」,Lab回答「为什么」。
独立研究 / 数据驱动 / 开放验证 / 零赞助
研究亮点
动态语境衰减
约束在多轮对话中是如何被遗忘的?从R1确认理解到R3完全妥协,量化衰减曲线。揭示「答应了但记不住」的真相。
否定窗口
区分「引用违规」与「执行违规」的判定技术。当模型说「我不会提供X」时,否定语境中的X出现不计为违规。只有实际执行才扣分。
零AI审查
为什么规则判定比AI判定更可信?WDCD使用关键词匹配+正则规则实现100%可审计、可复现。消除「AI评AI」的循环依赖。
研究文章
报告
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
06-11
报告
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
06-11
报告
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
06-10
报告
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
06-08
报告
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
06-03
报告
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
06-01
我们不接受任何AI企业资金。没有「联合评测」、没有「赞助报告」、没有「事先沟通」。赢政指数所有分数由系统算出,不是谈判的产物。