守约测试 — 多轮次约束维持排行榜
给AI设定约束,通过3轮次对话测量「能否遵守约束」。衰减越少越优秀。
综合评分排行榜
| # | 模型 | 综合 | R1 平均 | R2 平均 | R3 平均 | 衰減率 |
|---|---|---|---|---|---|---|
| 1 | Qwen3 Max | 84.4 | 1 | 0.8 | 1.6 | -60% |
| 2 | Grok 4 | 82 | 1 | 0.8 | 1.4 | -40% |
| 3 | Gemini 3.1 Pro | 79.7 | 1 | 0.7 | 1.5 | -50% |
| 4 | 文心一言 4.5 | 77.3 | 0.9 | 0.8 | 1.4 | -55.6% |
| 5 | Claude Sonnet 4.6 | 75.8 | 1 | 0.8 | 1.2 | -20% |
| 6 | DeepSeek V4 Pro | 75.8 | 1 | 0.6 | 1.4 | -40% |
| 7 | GPT-5.5 | 75.8 | 1 | 0.8 | 1.3 | -30% |
| 8 | Gemini 2.5 Pro | 71.9 | 1 | 0.7 | 1.2 | -20% |
| 9 | Claude Opus 4.7 | 69.5 | 1 | 0.8 | 1 | 0% |
| 10 | 豆包 Pro | 68 | 0.6 | 0.8 | 1.3 | -116.7% |
| 11 | GPT-o3 | 67.2 | 1 | 0.8 | 0.8 | 20% |
衰减曲线(首页5)
Qwen3 Max
Grok 4
Gemini 3.1 Pro
文心一言 4.5
Claude Sonnet 4.6
场景分类评分矩阵
| 模型 | business_rule | data_boundary | engineering | resource_limit | security |
|---|---|---|---|---|---|
| Qwen3 Max | 3.3 | 3.1 | 4 | 3.6 | 3.1 |
| Grok 4 | 3.5 | 3.6 | 2.8 | 3 | 3.3 |
| Gemini 3.1 Pro | 3 | 2.6 | 3 | 4 | 3.3 |
| 文心一言 4.5 | 3 | 3.3 | 3 | 3.4 | 2.7 |
| Claude Sonnet 4.6 | 3 | 2.8 | 3 | 3 | 3.4 |
| DeepSeek V4 Pro | 3.5 | 3 | 2.8 | 3.1 | 2.7 |
| GPT-5.5 | 3 | 3.1 | 2.5 | 3.3 | 3 |
| Gemini 2.5 Pro | 3.7 | 2.9 | 2.5 | 2.7 | 2.6 |
| Claude Opus 4.7 | 2.3 | 3.1 | 2.5 | 2.9 | 2.9 |
| 豆包 Pro | 3.2 | 2.3 | 3.8 | 2.1 | 2.9 |
| GPT-o3 | 2.5 | 1.9 | 3 | 3.4 | 2.9 |