AI资讯 — 行业快报与全球报道

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Grok 4材料约束从83.00降至61.30，跌21.7分，而代码执行从80.90升至100.00，主榜微升0.7分至82.59。单日10题快测下，此幅度波动是否为抽签随机还是真实能力变化值得追踪。

2026年6月15日 263

材料约束暴跌39分，赢政指数11模型主榜集体下滑

2026年6月15日Smoke评测显示，11个模型材料约束平均下滑30分以上，Grok 4以主榜82.59分（执行100、约束61.3）暂居第一，豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分，执行从97

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 189

测评

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底。榜首与榜尾相差17.19分，R3崩溃率达25%，满分率仅37.8%。Qwen3 Max R3得分1.59领先，GPT-o3 R3仅0.84，显示三轮

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 340

测评

Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分，代码执行从100.00分直接降至55.00分，材料约束则从77.30分升至89.50分。单日10题快测下，这一45分跌幅超出常规抽签波动范围，值得持续观察

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 251

测评

Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90，主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00，材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 230

测评

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示，Claude Opus 4.7从96.83跌至69.91，GPT-5.5从92.19升至95.24，成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分，诚信评级反复

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 239

测评

11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示，GPT-5.5主榜95.24分（执行96、约束94.3）位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分，主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 263

测评

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%，168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分，多数模型R1高分后R3崩盘，资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 181

测评

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位，GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%，满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑，头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 137

测评

Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

赢政指数Smoke评测显示，Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分，降幅15.2分，但代码执行从55.00分升至100.00分，主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 176

测评

Claude Opus 4.7材料约束暴跌16.5分主榜从96.83降至90.78

在赢政指数2026年6月Smoke评测中，Claude Opus 4.7材料约束从96.00骤降至79.50，主榜从96.83跌至90.78，工程判断同步下滑17.5分，需区分抽签波动与真实退化。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 178

测评

材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

2026-06-13 Smoke评测显示11个模型中10个代码执行满分，材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一，GPT-5.5材料约束跌至66分，主榜仅84.7分。豆包Pro主榜单日上涨23.

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 174

测评

Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

今日 Smoke 快测中，Gemini 3.1 Pro 以 96.96 分夺冠，Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分，拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 207

测评

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude Sonnet仅6.7%，揭示持续压力下的真实行为模式。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 337

测评

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老版本表现剧烈分化。

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 312

测评

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 407

测评

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 353

测评

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 202

测评

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

WDCD 守约测试模型更新指令遵循

2026年6月10日 338

测评

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

WDCD 守约测试模型选型资源限制

2026年6月10日 264

AI测评