YZ Index

最近两次评测对比

同日两次评测对比 · 非每周变动

2026年第19周 2026年第18周 2026年第17周 2026年第16周 2026年第15周 2026年第14周 2026年第12周 2026-19 2026-18 2026-03-24-同日对比

基準: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT 最新: Run #102 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-04 06:00 SGT

主变动综合力 core_overall

GPT-o3 +11.1

62.5 → 73.6

豆包 Pro -6.5

86.4 → 79.9

Gemini 2.5 Pro -5.6

84.3 → 78.7

Claude Sonnet 4.6 -2.9

84.1 → 81.1

侧面排行榜变动工程判断 / 任务表达

GPT-o3 +4.8

工程判断: 38.7 → 43.5

Claude Sonnet 4.6 +1.8

工程判断: 43.8 → 45.6

Gemini 2.5 Pro -8.5

工程判断: 47.2 → 38.7

豆包 Pro -7.6

工程判断: 46.3 → 38.7

运营信号变动稳定性 / 可用性 / 性价比

GPT-o3 +13.0

可用性: 87.0 → 100.0

GPT-o3 +8.5

稳定性: 28.9 → 37.4

Claude Sonnet 4.6 +2.9

稳定性: 35.7 → 38.6

GPT-o3 +1.5

性价比: 7.0 → 8.5

Claude Sonnet 4.6 +1.0

可用性: 99.0 → 100.0

豆包 Pro -3.0

稳定性: 38.8 → 35.8

Gemini 2.5 Pro -1.7

稳定性: 37.7 → 36.0

Gemini 2.5 Pro -1.4

性价比: 39.3 → 37.9

豆包 Pro -0.9

性价比: 93.3 → 92.4

显示旧版本维度变动（v5 向后兼容数据）

8 上升

3 下降

0 稳定

本周上升

文心一言 4.0 +6.8

文心一言 4.0：execution_raw +6.8

GPT-o3 +6.3

GPT-o3：grounding_raw +6.3

Claude Sonnet 4.6 +5

Claude Sonnet 4.6：communication_raw +5

DeepSeek V3 +5

DeepSeek V3：communication_raw +5

豆包 Pro +5

豆包 Pro：communication_raw +5

Gemini 2.5 Pro +5

Gemini 2.5 Pro：communication_raw +5

Qwen Max +5

Qwen Max：communication_raw +5

DeepSeek R1 +3.8

DeepSeek R1：execution_raw +3.8

本周下降

GPT-4o -10.3

GPT-4o：grounding_raw -10.3

Grok 3 -10.2

Grok 3：judgment_raw -10.2

Claude Opus 4.6 -6

Claude Opus 4.6：judgment_raw -6

最近两次评测对比

主变动 综合力 core_overall

侧面排行榜变动 工程判断 / 任务表达

运营信号变动 稳定性 / 可用性 / 性价比

本周上升

本周下降

主变动综合力 core_overall

侧面排行榜变动工程判断 / 任务表达

运营信号变动稳定性 / 可用性 / 性价比