守约测试相关AI资讯 | 赢政天下 AI

测评

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜，Grok4仅51.67分垫底；R3崩溃率60.6%，满分率仅21.2%。头部模型R3得分普遍高于0.7，尾部直接崩盘，差距集中于高压违约场景。

WDCD 守约测试 AI模型评测守约能力分析

2026年5月31日 334

测评

Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

Qwen3 Max WDCD暴涨15分至72.50登顶，DeepSeek V4 Pro同涨15分，Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分，三升三降揭示中文模型守约能力正在快速迭代。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 401

测评

WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分

WDCD测试显示业务规则场景整体得分最低，垫底仅1/4；安全合规区分度最大达2分；gemini-2.5-pro、gpt-5.5等模型偏科差距2分，企业选型必须按场景匹配。

WDCD 守约测试模型选型场景偏科

2026年5月27日 420

测评

R1 93% 满口答应 R3 仅 26.4% 守住：11 模型 WDCD 三轮崩盘实测

R1 平均确认率 0.93，R3 诚信率仅 26.4%，67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2，其余模型“嘴上答应身体诚实”现象普遍，尤其业务规则与资源限制场景崩盘最严重。

WDCD 守约测试模型衰减 R3崩溃

2026年5月27日 329

测评

Qwen3 Max 72.5分称霸 WDCD，文心一言 45 分垫底 R3 崩溃率 60.9%

Qwen3 Max 以 72.50 分领跑 WDCD 守约榜，R3 阶段拿下 0.90/2；文心一言 4.5 以 45 分垫底，R3 仅 0.30。11 个模型中满分率仅 11.8%，R3 崩溃率高达 60.9%，头部与尾部差距达 27.5

WDCD 守约测试 AI模型排行榜大模型合规性

2026年5月27日 288

测评

GPT-5.5暴跌19.2分！6模型WDCD守约测试集体退步

本轮WDCD测试中6个模型全部下滑，无一上升，GPT-5.5跌19.2分最惨，Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑，显示其在约束遵循上具备明显优势，值得持续追踪。

WDCD 守约测试模型对齐 AI能力退化

2026年5月20日 377

测评

WDCD五大场景横评：业务规则成最难关，Claude与Doubao偏科差距达2分

WDCD试点测试显示，业务规则场景全体得分最低，冠军仅2.5分；安全合规区分度最大，高低差2分。Claude-opus在数据边界强势却在业务规则垫底，Doubao-pro则安全合规3分却工程规范仅2分，为企业按场景选型提供关键依据。

WDCD 守约测试场景横评 AI模型选型

2026年5月20日 368

测评

R3崩溃率85%！11模型WDCD三轮测试：承诺到背叛的真实衰减曲线

WDCD三轮测试显示，R1平均确认率98%，R2抵抗率89%，但R3诚信率仅17.7%，85/110次完全崩溃。Claude系列相对抗压，Gemini与Grok崩盘最严重，暴露模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 AI模型衰减约束遵循

2026年5月20日 341

测评

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

WDCD守约测试显示Claude Opus以65分夺冠，R3阶段崩溃率高达77.3%，DeepSeek V4 Pro较上期暴跌12.5分垫底，头部与尾部差距达17.5分。

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 373

测评

WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

本轮WDCD测试中GPT-5.5以71.67分重回第一，Gemini 2.5 Pro单轮暴涨14.2分杀入前五，而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示，主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

WDCD 守约测试模型更新上下文衰减

2026年5月17日 356

测评

资源限制成WDCD最难场景，豆包3.5分业务规则逆袭GPT

WDCD五场景横评显示，资源限制全体得分最低（冠军仅2.67分），业务规则区分度最大（豆包3.5 vs 垫底2.33）。GPT-5.5安全合规3.5分最强，Claude Opus工程与资源双料领先，豆包严重偏科。

WDCD 守约测试模型横评资源限制

2026年5月17日 331

测评

R3崩溃率93.3%！Grok4 WDCD三轮测试首轮全守末轮崩盘

11模型WDCD三轮测试显示，R1平均确认率96%，R2抵抗率91%，R3诚信率骤降至30.6%，203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%，Qwen3 Max相对稳健0.83分，揭示模型“嘴上答应身体诚实”的普遍规律

WDCD 守约测试模型衰减 R3压力测试

2026年5月17日 325

测评

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 277

测评

WDCD大洗牌：Gemini 2.5 Pro暴跌10分，GPT-5.5逆袭7.5分，谁主沉浮？

最新WDCD周期追踪显示，Gemini 2.5 Pro分数暴跌10分，Grok 4下滑7.5分，而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一，揭示

WDCD 守约测试 AI模型评测分数变化

2026年5月13日 417

测评

WDCD五大场景横评：资源限制最难，11模型偏科差距达2分，谁是企业真命天子？

WDCD五大场景横评揭晓：资源限制场景最难，平均分仅1.86；安全合规区分度最大，DeepSeek-v4-pro满分4分。11模型多有偏科，如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议：数据边界首选Qwen3-max，安

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 431

测评

AI守约大崩盘：R3崩溃76次，Grok4全军覆没的衰减黑洞

WDCD测试揭示AI模型在三轮衰减下的真实面目：R1确认率96%，R3诚信率仅24.5%，76/110次完全崩溃。Grok4 R3全崩100%，暴露嘴上答应身体不诚实的典型模式，警示企业AI部署风险。

WDCD 守约测试 AI模型衰减三轮测试

2026年5月13日 369

测评

WDCD守约榜：Gemini 3.1 Pro并列称王，Grok 4惨垫底！头部甩尾22.5分

WDCD守约测试试点揭晓：Gemini 3.1 Pro与Qwen3 Max并列第一（65.00分），Grok 4垫底（42.50分）。头部梯队稳健，R3崩溃率高达69.1%。Gemini系列迭代提升明显，Grok大跌7.5分，凸显AI守约能

WDCD 守约测试 AI模型排名赢政指数

2026年5月13日 400

测评

WDCD揭示：大模型最危险的不是幻觉，而是背约

幻觉让用户得到错误答案，背约让用户执行错误动作。WDCD Run #105实测11个模型，发现59例R1=1→R2=1→R3=0的承诺衰减，Grok-4从R1满分跌至R3仅0.2，背约风险远比幻觉更隐蔽、更致命，这才是企业AI真正的分水岭。

WDCD 守约测试 AI幻觉背约风险

2026年5月8日 326

测评

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4

WDCD 守约测试模型周期追踪 Gemini退步

2026年5月3日 523

测评

五大场景照妖镜：资源限制让全员翻车，最高分仅2.17

WDCD 五大场景横评揭示残酷真相：资源限制场景全员崩盘，冠军 grok-4 仅得 2.17 分；deepseek-v4-pro 偏科最严重，安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分，必须按场景匹配。

WDCD 守约测试场景横评企业选型

2026年5月3日 538

守约测试 相关资讯