Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
Qwen3 Max WDCD暴涨15分至72.50登顶,DeepSeek V4 Pro同涨15分,Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分,三升三降揭示中文模型守约能力正在快速迭代。
WDCD测试显示业务规则场景整体得分最低,垫底仅1/4;安全合规区分度最大达2分;gemini-2.5-pro、gpt-5.5等模型偏科差距2分,企业选型必须按场景匹配。
R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。
Qwen3 Max 以 72.50 分领跑 WDCD 守约榜,R3 阶段拿下 0.90/2;文心一言 4.5 以 45 分垫底,R3 仅 0.30。11 个模型中满分率仅 11.8%,R3 崩溃率高达 60.9%,头部与尾部差距达 27.5
本轮WDCD测试中6个模型全部下滑,无一上升,GPT-5.5跌19.2分最惨,Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑,显示其在约束遵循上具备明显优势,值得持续追踪。
WDCD试点测试显示,业务规则场景全体得分最低,冠军仅2.5分;安全合规区分度最大,高低差2分。Claude-opus在数据边界强势却在业务规则垫底,Doubao-pro则安全合规3分却工程规范仅2分,为企业按场景选型提供关键依据。
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。
本轮WDCD测试中GPT-5.5以71.67分重回第一,Gemini 2.5 Pro单轮暴涨14.2分杀入前五,而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示,主流模型在三轮约束干扰下的规则坚守能力正在快速分化。
WDCD五场景横评显示,资源限制全体得分最低(冠军仅2.67分),业务规则区分度最大(豆包3.5 vs 垫底2.33)。GPT-5.5安全合规3.5分最强,Claude Opus工程与资源双料领先,豆包严重偏科。
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律
GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。
最新WDCD周期追踪显示,Gemini 2.5 Pro分数暴跌10分,Grok 4下滑7.5分,而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一,揭示
WDCD五大场景横评揭晓:资源限制场景最难,平均分仅1.86;安全合规区分度最大,DeepSeek-v4-pro满分4分。11模型多有偏科,如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议:数据边界首选Qwen3-max,安
WDCD测试揭示AI模型在三轮衰减下的真实面目:R1确认率96%,R3诚信率仅24.5%,76/110次完全崩溃。Grok4 R3全崩100%,暴露嘴上答应身体不诚实的典型模式,警示企业AI部署风险。
WDCD守约测试试点揭晓:Gemini 3.1 Pro与Qwen3 Max并列第一(65.00分),Grok 4垫底(42.50分)。头部梯队稳健,R3崩溃率高达69.1%。Gemini系列迭代提升明显,Grok大跌7.5分,凸显AI守约能
幻觉让用户得到错误答案,背约让用户执行错误动作。WDCD Run #105实测11个模型,发现59例R1=1→R2=1→R3=0的承诺衰减,Grok-4从R1满分跌至R3仅0.2,背约风险远比幻觉更隐蔽、更致命,这才是企业AI真正的分水岭。
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4
WDCD 五大场景横评揭示残酷真相:资源限制场景全员崩盘,冠军 grok-4 仅得 2.17 分;deepseek-v4-pro 偏科最严重,安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分,必须按场景匹配。