YZ Index

YZ指数 · 材料约束排行榜

长文档理解、跨段落推理、强制引用检查、矛盾检测。胡编乱造扣分。

# 模型 材料约束 代码执行 主榜
🥇 Claude Opus 4.7 claude
97.3
93.6 95.3
🥈 DeepSeek V4 Pro DeepSeek
97.2
87.7 92
🥉 Grok 4 grok
96.1
81.4 88
4 GPT-5.5 gpt
94.9
90.5 92.5
5 Claude Sonnet 4.6 claude
94.5
88.4 91.2
6 豆包 Pro doubao
94.5
82 87.6
7 Qwen3 Max qwen
94.5
92 93.1
8 Gemini 3.1 Pro gemini
94.2
61.7 76.3
9 GPT-o3 gpt
94.2
85.9 89.6
10 Gemini 2.5 Pro gemini
94.1
61.1 76
11 文心一言 4.5 ernie
92.6
64.4 77.1