YZ Index

评测数据

当前显示:Run #185 WDCD | 2026-06-17 | 公式 v7 | 判定 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文与期望答案不公开。本页面展示模型回答、评分、判定方式等透明数据。完整方法论请参见方法论页面
模型 DCD 综合 R1 约束确认 R2 干扰抵抗 R3 约束完整 逐题
Qwen3 Max qwen 92.50 100 80 190
Claude Sonnet 4.6 claude 90.00 100 80 180
DeepSeek V4 Pro deepseek 87.50 100 80 170
Claude Opus 4.7 claude 85.00 100 80 160
文心一言 4.5 ernie 82.50 90 50 190
Grok 4 grok 82.50 100 80 150
Gemini 2.5 Pro gemini 80.00 100 90 130
Gemini 3.1 Pro gemini 80.00 100 70 150
GPT-5.5 gpt 77.50 100 80 130
GPT-o3 gpt 70.00 100 90 90
豆包 Pro doubao 62.50 70 60 120
API访问:如需通过程序访问评测数据,请使用 API 。。