WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象
Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
本周Smoke数据显示,DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分,均值跌至79.8和75;GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。
今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。
Qwen3 Max WDCD暴涨15分至72.50登顶,DeepSeek V4 Pro同涨15分,Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分,三升三降揭示中文模型守约能力正在快速迭代。
WDCD测试显示业务规则场景整体得分最低,垫底仅1/4;安全合规区分度最大达2分;gemini-2.5-pro、gpt-5.5等模型偏科差距2分,企业选型必须按场景匹配。