YZ Index

评测数据

当前显示:Run #180 | 2026-06-15 | 154题题库 | 公式 v7 | 判定 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文与期望答案不公开。本页面展示模型回答、评分、判定方式等透明数据。完整方法论请参见方法论页面
模型 代码执行 资料约束 工学判断 任务表达 誠実性 主评分 性价比 安定性 可用性 详细操作
Claude Opus 4.7 claude 93.60 97.30 95.30 94.00 90.00 pass 95.27 6.3 67.3 100.0
Qwen3 Max qwen 92.00 94.50 70.70 80.90 81.70 pass 93.13 57.7 51.0 100.0
GPT-5.5 gpt 90.50 94.90 96.50 99.40 85.00 pass 92.48 21.9 58.8 100.0
DeepSeek V4 Pro deepseek 87.70 97.20 95.30 99.70 83.30 pass 91.98 50.3 60.6 99.0
Claude Sonnet 4.6 claude 88.40 94.50 96.70 94.30 86.70 pass 91.15 29.7 58.0 100.0
GPT-o3 gpt 85.90 94.20 90.30 86.90 80.00 pass 89.64 10.6 55.7 98.0
Grok 4 grok 81.40 96.10 88.30 94.90 83.30 pass 88.02 28.6 48.2 100.0
豆包 Pro doubao 82.00 94.50 96.70 99.70 86.70 pass 87.63 95.8 66.7 96.0
文心一言 4.5 ernie 64.40 92.60 54.10 68.20 65.00 pass 77.09 98.9 26.4 99.0
Gemini 3.1 Pro gemini 61.70 94.20 86.50 86.90 83.30 pass 76.33 26.7 28.3 100.0
Gemini 2.5 Pro gemini 61.10 94.10 89.90 74.70 88.30 pass 75.95 40.1 55.8 87.0
API访问:如需通过程序访问评测数据,请使用 API 。。