YZ Index

YZ指数 · 工程判断排行榜

优先级、技术选型、事故分类、人才评测 — 规则精确判分(json_schema_exact),确定性可复验。

分维度榜:规则精确判分 — 此排行榜的维度全部由确定性规则(json_schema_exact 精确比对、沙箱执行等)判分,零 AI 裁判,与主榜同口径。
# 模型 工程判断 代码执行 主榜
🥇 Claude Sonnet 4.6 claude
96.7
88.4 91.2
🥈 豆包 Pro doubao
96.7
82 87.6
🥉 GPT-5.5 gpt
96.5
90.5 92.5
4 Claude Opus 4.7 claude
95.3
93.6 95.3
5 DeepSeek V4 Pro DeepSeek
95.3
87.7 92
6 GPT-o3 gpt
90.3
85.9 89.6
7 Gemini 2.5 Pro gemini
89.9
61.1 76
8 Grok 4 grok
88.3
81.4 88
9 Gemini 3.1 Pro gemini
86.5
61.7 76.3
10 Qwen3 Max qwen
70.7
92 93.1
11 文心一言 4.5 ernie
54.1
64.4 77.1