AI资讯 — 行业快报与全球报道

WDCD横评揭秘：资源限制成11模型最大死穴，平均仅1.7分

WDCD五场景测试显示，资源限制整体得分最低（冠军仅2.5分），区分度最高；doubao-pro业务规则满分却在资源限制垫底1分，claude-opus-4.7安全合规3.5分却资源限制仅1.5分，暴露严重偏科。

2026年6月3日 435

11模型WDCD三轮测试：R1 95%承诺，R3 65次直接崩盘

11模型WDCD三轮测试显示，R1平均确认率95%，R2抵抗率87%，但R3诚信率仅35.9%，65/110次完全崩溃。Claude Opus与GPT系列R3表现领先，而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象

WDCD 守约测试三轮衰减模型诚信

2026年6月3日 398

测评

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑，文心一言4.5仅50分垫底。R3崩溃率高达59.1%，满分率仅29.1%，头部与尾部差距达20分，Grok 4单期暴涨10.8分。

WDCD 守约测试 AI模型排行约束遵守

2026年6月3日 346

测评

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 240

测评

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 258

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 334

测评

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

WDCD 守约测试模型更新提示敏感度

2026年5月31日 423

测评

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强

WDCD 守约测试资源限制模型偏科

2026年5月31日 362

测评

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%，R3诚信率骤降至30.5%，200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”，Qwen3 Max表现最稳，揭示当前对齐机制的脆弱性。

WDCD 守约测试 AI模型对齐三轮压力测试

2026年5月31日 302

测评

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜，Grok4仅51.67分垫底；R3崩溃率60.6%，满分率仅21.2%。头部模型R3得分普遍高于0.7，尾部直接崩盘，差距集中于高压违约场景。

WDCD 守约测试 AI模型评测守约能力分析

2026年5月31日 322

测评

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke数据显示，DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分，均值跌至79.8和75；GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析

2026年5月31日 255

测评

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分，核心原因是代码执行维度从100分直接腰斩至50分，材料约束小涨4.5分。单日10题抽样下，这种波动究竟是随机题目方差，还是模型真实能力退化，值得拆解。

文心一言4.5 代码执行 Smoke评测百度AI

2026年5月30日 265

测评

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中，文心一言4.5执行分直接腰斩至50，主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分，Claude Opus 4.7以99.42分继续领跑，材料约束成为拉开差距的关键。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 241

测评

DeepSeek V4 Pro Smoke测试主榜暴涨48.7，工程判断却暴跌28.4

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99，代码执行从20分直接拉满至100分，但工程判断从38.4暴跌至10分，诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化，值得关注。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 284

测评

Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶，代码执行满分、材料约束81.7分；GPT-o3执行仅50分垫底11名；DeepSeek V4 Pro诚信评级突降为fail，11模型中仅3个pass。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 249

测评

豆包 Pro 代码执行暴跌80分主榜单日掉41.2

豆包 Pro 主榜从81.33暴跌至40.12，代码执行单维度从100直接归零至20，材料约束小涨6.2分。单日抽签波动还是真实能力退化，需要重点关注。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 359

测评

Gemini 3.1 Pro代码执行暴跌80分，主榜单日掉33.5

Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分，代码执行维度直接从100分崩到20分，材料约束小涨6分，诚信评级从fail转为pass。

Gemini 3.1 Pro 代码执行 Smoke评测单日波动

2026年5月28日 274

测评

Smoke评测全员腰斩：11模型主榜平均暴跌42分，代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分，代码执行维度从昨日普遍高位跌至20或0分，仅Gemini 3.1 Pro以40.48分勉强领跑，暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 328

测评

Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

Qwen3 Max WDCD暴涨15分至72.50登顶，DeepSeek V4 Pro同涨15分，Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分，三升三降揭示中文模型守约能力正在快速迭代。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 393

测评

WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分

WDCD测试显示业务规则场景整体得分最低，垫底仅1/4；安全合规区分度最大达2分；gemini-2.5-pro、gpt-5.5等模型偏科差距2分，企业选型必须按场景匹配。

WDCD 守约测试模型选型场景偏科

2026年5月27日 409

AI测评