YZ Index
YZ指数 · 任务表达排行榜
摘要、翻译、改写、FAQ生成、事故报告 — 规则精确判分(json_schema_exact),确定性可复验。
分维度榜:规则精确判分 — 此排行榜的维度全部由确定性规则(json_schema_exact 精确比对、沙箱执行等)判分,零 AI 裁判,与主榜同口径。
| # | 模型 | 任务表达 | 代码执行 | 主榜 |
|---|---|---|---|---|
| 🥇 | DeepSeek V4 Pro DeepSeek | 87.7 | 92 | |
| 🥈 | 豆包 Pro doubao | 82 | 87.6 | |
| 🥉 | GPT-5.5 gpt | 90.5 | 92.5 | |
| 4 | Grok 4 grok | 81.4 | 88 | |
| 5 | Claude Sonnet 4.6 claude | 88.4 | 91.2 | |
| 6 | Claude Opus 4.7 claude | 93.6 | 95.3 | |
| 7 | Gemini 3.1 Pro gemini | 61.7 | 76.3 | |
| 8 | GPT-o3 gpt | 85.9 | 89.6 | |
| 9 | Qwen3 Max qwen | 92 | 93.1 | |
| 10 | Gemini 2.5 Pro gemini | 61.1 | 76 | |
| 11 | 文心一言 4.5 ernie | 64.4 | 77.1 |