YZ Index

YZ指数 · 任务表达排行榜

摘要、翻译、改写、FAQ生成、事故报告 — 规则精确判分(json_schema_exact),确定性可复验。

分维度榜:规则精确判分 — 此排行榜的维度全部由确定性规则(json_schema_exact 精确比对、沙箱执行等)判分,零 AI 裁判,与主榜同口径。
# 模型 任务表达 代码执行 主榜
🥇 DeepSeek V4 Pro DeepSeek
99.7
87.7 92
🥈 豆包 Pro doubao
99.7
82 87.6
🥉 GPT-5.5 gpt
99.4
90.5 92.5
4 Grok 4 grok
94.9
81.4 88
5 Claude Sonnet 4.6 claude
94.3
88.4 91.2
6 Claude Opus 4.7 claude
94
93.6 95.3
7 Gemini 3.1 Pro gemini
86.9
61.7 76.3
8 GPT-o3 gpt
86.9
85.9 89.6
9 Qwen3 Max qwen
80.9
92 93.1
10 Gemini 2.5 Pro gemini
74.7
61.1 76
11 文心一言 4.5 ernie
68.2
64.4 77.1