WDCD试点数据显示,资源限制场景全体得分最低,冠军gemini-3.1-pro仅拿到2.5分,doubao-pro垫底1分;业务规则场景则成为最大分水岭,gemini-2.5-pro和gpt-o3双双4分满分,claude-opus-4.7仅2分。
资源限制为何集体失守
三轮守约测试中,R3直接施压环节对资源限制约束破坏最严重。gemini-3.1-pro凭借2.5分成为唯一超过2分的模型,其余10个模型全部卡在2分及以下。doubao-pro在R2无关话题干扰后,R3直接放弃约束,只剩1分。数据边界场景冠军claude-opus-4.7在此仅得1.5分,暴露出其对“计算配额”“并发上限”这类动态限制的敏感度不足。
业务规则区分度最高
业务规则场景得分跨度最大,从4分到2分。gemini-2.5-pro和gpt-o3在R1注入“不得越过审批层级”约束后,R2、R3均严格遵守,拿下满分。claude-opus-4.7、ernie-4.5、gemini-3.1-pro、grok-4四模型全部只得2分,显示出对企业内部流程规则的遵守能力存在明显短板。
偏科模型集中暴露
差距≥1分的模型多达11个,claude-opus-4.7数据边界3.5分与资源限制1.5分形成2分落差;gpt-o3业务规则4分与资源限制1.5分落差达2.5分;doubao-pro业务规则3分、资源限制仅1分,同样落差2分。这些模型在单一场景表现突出,却在另一场景快速失守,说明其守约能力高度依赖训练数据的场景覆盖。
- claude-opus-4.7:数据边界与工程规范强,资源限制弱
- gemini-2.5-pro:业务规则满分,数据边界仅2分
- deepseek-v4-pro:业务规则3分,资源限制1.5分
企业选型具体建议
若核心场景为数据边界与工程规范,优先claude-opus-4.7;若需严格执行业务审批流程,gemini-2.5-pro与gpt-o3更可靠;资源限制场景目前无绝对优势模型,gemini-3.1-pro相对最稳,但仍需额外人工校验。安全合规场景claude-sonnet-4.6与qwen3-max并列领先,可作为合规敏感业务的备选。
试点阶段已清晰显示:没有模型在全部五场景保持领先。企业必须放弃“一把抓”的选型思路,按实际约束类型匹配模型,否则极易在R3施压环节出现规则突破。
资源限制将成为下一阶段模型迭代的最大瓶颈,谁先突破,谁就能在企业级守约测试中占据决定性优势。
数据来源:赢政指数 WDCD 守约排行榜 | Run #157 · 场景矩阵 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接