YZ Index

评测数据

現在显示中:Run #87 | 2026-04-27 | 212题题库 | 公式 v7 | 判定 v6

数据公开说明:为防止题库污染和过拟合,题目原文与期望答案不公开。本页面展示模型回答、评分、判定方式等透明数据。完整方法论请参见方法论页面
模型 代码执行 资料约束 工学判断 任务表达 誠実性 主评分 性价比 安定性 可用性 详细操作
Grok 3 grok 88.90 84.40 43.50 40.00 77.50 pass 86.88 25.8 35.5 99.0
豆包 Pro doubao 92.20 79.40 46.30 40.00 77.50 pass 86.44 93.3 38.8 100.0
Gemini 2.5 Pro gemini 89.40 78.10 47.20 40.00 80.80 pass 84.32 39.3 37.7 100.0
Claude Sonnet 4.6 claude 86.50 81.10 43.80 40.00 74.20 pass 84.07 25.1 35.7 99.0
Claude Opus 4.6 claude 86.50 79.70 46.30 40.00 67.50 pass 83.44 5.1 35.2 100.0
DeepSeek V3 deepseek 83.20 77.80 44.30 40.00 59.20 warn 80.77 99.7 32.8 100.0
Qwen Max qwen 78.40 77.30 40.70 40.00 65.80 pass 77.91 48.6 32.7 100.0
DeepSeek R1 deepseek 78.90 72.20 38.70 40.00 54.20 warn 75.89 90.3 30.2 100.0
文心一言 4.0 ernie 77.00 72.30 39.70 40.00 69.20 pass 74.89 98.6 31.3 100.0
GPT-4o gpt 71.70 57.60 41.50 40.00 74.20 pass 65.36 29.1 30.4 91.0
GPT-o3 gpt 73.40 49.20 38.70 40.00 69.20 pass 62.51 7.0 28.9 87.0
API访问:如需通过程序访问评测数据,请使用 API 。。