资源限制相关AI资讯 | 赢政天下 AI

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

11模型WDCD三轮测试显示，R1平均确认率95%，R2抵抗率87%，但R3诚信率仅35.9%，65/110次完全崩溃。Claude Opus与GPT系列R3表现领先，而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强

WDCD五场景横评显示，资源限制全体得分最低（冠军仅2.67分），业务规则区分度最大（豆包3.5 vs 垫底2.33）。GPT-5.5安全合规3.5分最强，Claude Opus工程与资源双料领先，豆包严重偏科。

预算、内存、配额、并发数看似简单，却是Run #105中失败率最高的类别。Q226重试上限3次被9/11模型改成无限循环，Q223并发上限20被7/11模型设为64。资源限制暴露的不是计算能力，而是模型的执行纪律。