WDCD横评:业务规则场景最低1.55分 grok-4安全合规3.86夺冠
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.
模型对通用安全边界训练更充分,但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败,业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压,折扣审批SLA比想象中更容易失守。