YZ Index
AI模型每周变动排行榜
自动评分 · 自动变动计算 · 每周自动更新
基準: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT
最新: Run #102 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-04 06:00 SGT
主变动 综合力 core_overall
GPT-o3
+11.1
62.5 → 73.6
豆包 Pro
-6.5
86.4 → 79.9
Gemini 2.5 Pro
-5.6
84.3 → 78.7
Claude Sonnet 4.6
-2.9
84.1 → 81.1
侧面排行榜变动 工程判断 / 任务表达
GPT-o3
+4.8
工程判断: 38.7 → 43.5
Claude Sonnet 4.6
+1.8
工程判断: 43.8 → 45.6
Gemini 2.5 Pro
-8.5
工程判断: 47.2 → 38.7
豆包 Pro
-7.6
工程判断: 46.3 → 38.7
运营信号变动 稳定性 / 可用性 / 性价比
GPT-o3
+13.0
可用性: 87.0 → 100.0
GPT-o3
+8.5
稳定性: 28.9 → 37.4
Claude Sonnet 4.6
+2.9
稳定性: 35.7 → 38.6
GPT-o3
+1.5
性价比: 7.0 → 8.5
Claude Sonnet 4.6
+1.0
可用性: 99.0 → 100.0
豆包 Pro
-3.0
稳定性: 38.8 → 35.8
Gemini 2.5 Pro
-1.7
稳定性: 37.7 → 36.0
Gemini 2.5 Pro
-1.4
性价比: 39.3 → 37.9
豆包 Pro
-0.9
性价比: 93.3 → 92.4
显示旧版本维度变动(v5 向后兼容数据)
11
上升
0
下降
0
稳定
本周上升
文心一言 4.0
+15
文心一言 4.0:任务表达 +15
GPT-4o
+15
GPT-4o:任务表达 +15
GPT-o3
+15
GPT-o3:任务表达 +15
Qwen Max
+15
Qwen Max:任务表达 +15
Claude Opus 4.6
+13.3
Claude Opus 4.6:材料约束 +13.3
Claude Sonnet 4.6
+10
Claude Sonnet 4.6:任务表达 +10
DeepSeek R1
+10
DeepSeek R1:任务表达 +10
DeepSeek V3
+10
DeepSeek V3:任务表达 +10
豆包 Pro
+10
豆包 Pro:任务表达 +10
Gemini 2.5 Pro
+10
Gemini 2.5 Pro:任务表达 +10
Grok 3
+10
Grok 3:任务表达 +10