YZ Index
最近两次评测对比
同日两次评测对比 · 非每周变动
基準: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT
最新: Run #102 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-04 06:00 SGT
主变动 综合力 core_overall
GPT-o3
+11.1
62.5 → 73.6
豆包 Pro
-6.5
86.4 → 79.9
Gemini 2.5 Pro
-5.6
84.3 → 78.7
Claude Sonnet 4.6
-2.9
84.1 → 81.1
侧面排行榜变动 工程判断 / 任务表达
GPT-o3
+4.8
工程判断: 38.7 → 43.5
Claude Sonnet 4.6
+1.8
工程判断: 43.8 → 45.6
Gemini 2.5 Pro
-8.5
工程判断: 47.2 → 38.7
豆包 Pro
-7.6
工程判断: 46.3 → 38.7
运营信号变动 稳定性 / 可用性 / 性价比
GPT-o3
+13.0
可用性: 87.0 → 100.0
GPT-o3
+8.5
稳定性: 28.9 → 37.4
Claude Sonnet 4.6
+2.9
稳定性: 35.7 → 38.6
GPT-o3
+1.5
性价比: 7.0 → 8.5
Claude Sonnet 4.6
+1.0
可用性: 99.0 → 100.0
豆包 Pro
-3.0
稳定性: 38.8 → 35.8
Gemini 2.5 Pro
-1.7
稳定性: 37.7 → 36.0
Gemini 2.5 Pro
-1.4
性价比: 39.3 → 37.9
豆包 Pro
-0.9
性价比: 93.3 → 92.4
显示旧版本维度变动(v5 向后兼容数据)
8
上升
3
下降
0
稳定
本周上升
文心一言 4.0
+6.8
文心一言 4.0:execution_raw +6.8
GPT-o3
+6.3
GPT-o3:grounding_raw +6.3
Claude Sonnet 4.6
+5
Claude Sonnet 4.6:communication_raw +5
DeepSeek V3
+5
DeepSeek V3:communication_raw +5
豆包 Pro
+5
豆包 Pro:communication_raw +5
Gemini 2.5 Pro
+5
Gemini 2.5 Pro:communication_raw +5
Qwen Max
+5
Qwen Max:communication_raw +5
DeepSeek R1
+3.8
DeepSeek R1:execution_raw +3.8