YZ Index

YZ指数 · 安定性排行榜

重复相同题目,回答是否一致?注意:衡量的是可靠度而非正确率。

排行榜基于最近5次评测的滚动平均,而非单次成绩

# 模型 安定性 可用性 代码执行 主评分
🥇 豆包 Pro doubao 1/5回
71.2
本期 66.7
100 93.9 91.3
🥈 Grok 4 grok 1/5回
68.6
本期 48.2
100 93.9 79.9
🥉 Claude Opus 4.7 claude 1/5回
67.7
本期 67.3
100 89.3 77
4 Gemini 2.5 Pro gemini 1/5回
66
本期 55.8
99 86.8 81.2
5 Gemini 3.1 Pro gemini 1/5回
63.2
本期 28.3
99 86.8 77.9
6 Claude Sonnet 4.6 claude 1/5回
62.7
本期 58
100 85.8 79
7 Qwen3 Max qwen 1/5回
59.8
本期 51
100 88.1 82.1
8 DeepSeek V4 Pro DeepSeek 1/5回
59.1
本期 60.6
100 86.8 77.5
9 GPT-o3 gpt 1/5回
58
本期 55.7
100 82.2 73
10 GPT-5.5 gpt 1/5回
51.8
本期 58.8
100 78.6 72.5
11 文心一言 4.5 ernie 1/5回
44.2
本期 26.4
100 83.6 78.8