排行榜基于最近5次评测的滚动平均,而非单次成绩
| # | 模型 | 安定性 | 可用性 | 代码执行 | 主评分 |
|---|---|---|---|---|---|
| 🥇 | 豆包 Pro doubao 1/5回 | 本期 66.7 | 100 | 93.9 | 91.3 |
| 🥈 | Grok 4 grok 1/5回 | 本期 48.2 | 100 | 93.9 | 79.9 |
| 🥉 | Claude Opus 4.7 claude 1/5回 | 本期 67.3 | 100 | 89.3 | 77 |
| 4 | Gemini 2.5 Pro gemini 1/5回 | 本期 55.8 | 99 | 86.8 | 81.2 |
| 5 | Gemini 3.1 Pro gemini 1/5回 | 本期 28.3 | 99 | 86.8 | 77.9 |
| 6 | Claude Sonnet 4.6 claude 1/5回 | 本期 58 | 100 | 85.8 | 79 |
| 7 | Qwen3 Max qwen 1/5回 | 本期 51 | 100 | 88.1 | 82.1 |
| 8 | DeepSeek V4 Pro DeepSeek 1/5回 | 本期 60.6 | 100 | 86.8 | 77.5 |
| 9 | GPT-o3 gpt 1/5回 | 本期 55.7 | 100 | 82.2 | 73 |
| 10 | GPT-5.5 gpt 1/5回 | 本期 58.8 | 100 | 78.6 | 72.5 |
| 11 | 文心一言 4.5 ernie 1/5回 | 本期 26.4 | 100 | 83.6 | 78.8 |