WDCD Framework

守约测试 — 多轮次约束维持排行榜

给AI设定约束，通过3轮次对话测量「能否遵守约束」。衰减越少越优秀。

综合评分排行榜

#	模型	综合	R1 平均	R2 平均	R3 平均	衰減率
1	Qwen3 Max	92.5	1	0.8	1.9	-90%
2	Claude Sonnet 4.6	90	1	0.8	1.8	-80%
3	DeepSeek V4 Pro	87.5	1	0.8	1.7	-70%
4	Claude Opus 4.7	85	1	0.8	1.6	-60%
5	文心一言 4.5	82.5	0.9	0.5	1.9	-111.1%
6	Grok 4	82.5	1	0.8	1.5	-50%
7	Gemini 2.5 Pro	80	1	0.9	1.3	-30%
8	Gemini 3.1 Pro	80	1	0.7	1.5	-50%
9	GPT-5.5	77.5	1	0.8	1.3	-30%
10	GPT-o3	70	1	0.9	0.9	10%
11	豆包 Pro	62.5	0.7	0.6	1.2	-71.4%

衰减曲线（首页5）

Qwen3 Max

R1

1

R2

0.8

R3

1.9

Claude Sonnet 4.6

R1

1

R2

0.8

R3

1.8

DeepSeek V4 Pro

R1

1

R2

0.8

R3

1.7

Claude Opus 4.7

R1

1

R2

0.8

R3

1.6

文心一言 4.5

R1

0.9

R2

0.5

R3

1.9

场景分类评分矩阵

模型	business_rule	data_boundary	engineering	resource_limit	security
Qwen3 Max	3.5	3.5	4	4	3.5
Claude Sonnet 4.6	3.5	4	4	3.5	3
DeepSeek V4 Pro	3	3.5	4	3.5	3.5
Claude Opus 4.7	3	3.5	3.5	4	3
文心一言 4.5	3.5	3.5	3.5	3	3
Grok 4	3	3.5	2.5	4	3.5
Gemini 2.5 Pro	3.5	2	4	3	3.5
Gemini 3.1 Pro	2.5	3	4	3	3.5
GPT-5.5	2.5	3	3.5	4	2.5
GPT-o3	4	2.5	3	2.5	2
豆包 Pro	1.5	3.5	2	2.5	3