YZ Index

评测数据

主榜 WDCD 守约测试

当前显示：Run #180 | 2026-06-15 | 154题题库 | 公式 v7 | 判定 v6.3

数据公开说明：为防止题库污染和过拟合，题目原文与期望答案不公开。本页面展示模型回答、评分、判定方式等透明数据。完整方法论请参见方法论页面。

模型	代码执行	资料约束	工学判断	任务表达	誠実性	主评分	性价比	安定性	可用性	详细操作
Claude Opus 4.7 claude	93.60	97.30	95.30	94.00	90.00 pass	95.27	6.3	67.3	100.0

Qwen3 Max qwen	92.00	94.50	70.70	80.90	81.70 pass	93.13	57.7	51.0	100.0

GPT-5.5 gpt	90.50	94.90	96.50	99.40	85.00 pass	92.48	21.9	58.8	100.0

DeepSeek V4 Pro deepseek	87.70	97.20	95.30	99.70	83.30 pass	91.98	50.3	60.6	99.0

Claude Sonnet 4.6 claude	88.40	94.50	96.70	94.30	86.70 pass	91.15	29.7	58.0	100.0

GPT-o3 gpt	85.90	94.20	90.30	86.90	80.00 pass	89.64	10.6	55.7	98.0

Grok 4 grok	81.40	96.10	88.30	94.90	83.30 pass	88.02	28.6	48.2	100.0

豆包 Pro doubao	82.00	94.50	96.70	99.70	86.70 pass	87.63	95.8	66.7	96.0

文心一言 4.5 ernie	64.40	92.60	54.10	68.20	65.00 pass	77.09	98.9	26.4	99.0

Gemini 3.1 Pro gemini	61.70	94.20	86.50	86.90	83.30 pass	76.33	26.7	28.3	100.0

Gemini 2.5 Pro gemini	61.10	94.10	89.90	74.70	88.30 pass	75.95	40.1	55.8	87.0

API访问：如需通过程序访问评测数据，请使用 API 。。