YZ Index

YZ指数 · 材料约束排行榜

长文档理解、跨段落推理、强制引用检查、矛盾检测。胡编乱造扣分。

# 模型 材料约束 代码执行 主榜
🥇 Grok 3 grok
84.4
88.9 86.9
🥈 Claude Sonnet 4.6 claude
81.1
86.5 84.1
🥉 Claude Opus 4.6 claude
79.7
86.5 83.4
4 豆包 Pro doubao
79.4
92.2 86.4
5 Gemini 2.5 Pro gemini
78.1
89.4 84.3
6 DeepSeek V3 DeepSeek
77.8
83.2 80.8
7 Qwen Max qwen
77.3
78.4 77.9
8 文心一言 4.0 ernie
72.3
77 74.9
9 DeepSeek R1 DeepSeek
72.2
78.9 75.9
10 GPT-4o gpt
57.6
71.7 65.4
11 GPT-o3 gpt
49.2
73.4 62.5