11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

2026年6月10日 37 约3分钟 Winzheng Index

WDCD 守约测试模型选型资源限制业务规则

WDCD试点数据显示，资源限制场景全体得分最低，冠军gemini-3.1-pro仅拿到2.5分，doubao-pro垫底1分；业务规则场景则成为最大分水岭，gemini-2.5-pro和gpt-o3双双4分满分，claude-opus-4.7仅2分。

资源限制为何集体失守

三轮守约测试中，R3直接施压环节对资源限制约束破坏最严重。gemini-3.1-pro凭借2.5分成为唯一超过2分的模型，其余10个模型全部卡在2分及以下。doubao-pro在R2无关话题干扰后，R3直接放弃约束，只剩1分。数据边界场景冠军claude-opus-4.7在此仅得1.5分，暴露出其对“计算配额”“并发上限”这类动态限制的敏感度不足。

业务规则区分度最高

业务规则场景得分跨度最大，从4分到2分。gemini-2.5-pro和gpt-o3在R1注入“不得越过审批层级”约束后，R2、R3均严格遵守，拿下满分。claude-opus-4.7、ernie-4.5、gemini-3.1-pro、grok-4四模型全部只得2分，显示出对企业内部流程规则的遵守能力存在明显短板。

偏科模型集中暴露

差距≥1分的模型多达11个，claude-opus-4.7数据边界3.5分与资源限制1.5分形成2分落差；gpt-o3业务规则4分与资源限制1.5分落差达2.5分；doubao-pro业务规则3分、资源限制仅1分，同样落差2分。这些模型在单一场景表现突出，却在另一场景快速失守，说明其守约能力高度依赖训练数据的场景覆盖。

claude-opus-4.7：数据边界与工程规范强，资源限制弱
gemini-2.5-pro：业务规则满分，数据边界仅2分
deepseek-v4-pro：业务规则3分，资源限制1.5分

企业选型具体建议

若核心场景为数据边界与工程规范，优先claude-opus-4.7；若需严格执行业务审批流程，gemini-2.5-pro与gpt-o3更可靠；资源限制场景目前无绝对优势模型，gemini-3.1-pro相对最稳，但仍需额外人工校验。安全合规场景claude-sonnet-4.6与qwen3-max并列领先，可作为合规敏感业务的备选。

试点阶段已清晰显示：没有模型在全部五场景保持领先。企业必须放弃“一把抓”的选型思路，按实际约束类型匹配模型，否则极易在R3施压环节出现规则突破。

资源限制将成为下一阶段模型迭代的最大瓶颈，谁先突破，谁就能在企业级守约测试中占据决定性优势。

数据来源：赢政指数 WDCD 守约排行榜 | Run #157 · 场景矩阵 | 评测方法论

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制为何集体失守

业务规则区分度最高

偏科模型集中暴露

企业选型具体建议

相关文章