业务规则相关资讯

WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

WDCD v3.1五大约束场景横评显示，业务规则场景全体得分最低，doubao-pro与qwen3-max仅1.55/4垫底；grok-4在安全合规拿下3.86/4最高分，同时在全部场景保持第一；Claude-sonnet-4.6工程规范与

WDCD 守约测试业务规则安全合规

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

WDCD 守约测试模型选型资源限制

2026年6月10日 379

WDCD场景分析：业务规则为什么比安全规则更难守

模型对通用安全边界训练更充分，但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败，业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压，折扣审批SLA比想象中更容易失守。

WDCD 业务规则安全规则折扣约束

2026年5月9日 352