YZ Index

YZ指数 · 知識综合排行榜

商业文档、翻译、逻辑推理、工程判断、矛盾检测、诚实度测试。

排行榜基于最近5次评测的滚动平均,而非单次成绩

# 模型 知識综合 安定性 性价比 主评分
🥇 Gemini 2.5 Pro gemini
92.3
本期 82.9
36.6 38.2 77.2
🥈 Grok 3 grok
89.3
本期 82.9
34.4 24.3 73.4
🥉 豆包 Pro doubao
88.7
本期 87.1
38.9 93 85.8
4 Claude Sonnet 4.6 claude
86.3
本期 77.1
36.1 24 72.4
5 Qwen Max qwen
86
本期 80
31.6 48.2 73.8
6 GPT-o3 gpt
85.6
本期 75.7
31.7 7.2 62
7 Claude Opus 4.6 claude
84.4
本期 74.3
36.6 4.9 69
8 GPT-4o gpt
83.3
本期 72.9
29.6 27.5 63.3
9 DeepSeek V3 DeepSeek
81.7
本期 67.1
32.9 99.7 82.9
10 文心一言 4.0 ernie
79.8
本期 70.3
29.9 98.5 79.5
11 DeepSeek R1 DeepSeek
79.5
本期 62.9
32.2 92 80.9