AI资讯 — 行业快报与全球报道

R1 93% 满口答应 R3 仅 26.4% 守住：11 模型 WDCD 三轮崩盘实测

R1 平均确认率 0.93，R3 诚信率仅 26.4%，67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2，其余模型“嘴上答应身体诚实”现象普遍，尤其业务规则与资源限制场景崩盘最严重。

2026年5月27日 318

Qwen3 Max 72.5分称霸 WDCD，文心一言 45 分垫底 R3 崩溃率 60.9%

Qwen3 Max 以 72.50 分领跑 WDCD 守约榜，R3 阶段拿下 0.90/2；文心一言 4.5 以 45 分垫底，R3 仅 0.30。11 个模型中满分率仅 11.8%，R3 崩溃率高达 60.9%，头部与尾部差距达 27.5

WDCD 守约测试 AI模型排行榜大模型合规性

2026年5月27日 279

测评

Claude Sonnet 4.6材料约束暴跌15分，Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5，主榜从88.53降至81.78，诚信评级由pass转为warn。单日-15分变化超出正常抽签波动，需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 288

测评

Claude Opus 4.7材料约束单日跌15分，Smoke测试波动还是真实退化

Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50，主榜从88.53降至81.78。代码执行保持满分100分，工程判断与任务表达零变化。单日10题抽签下，此类15分级波动是否反映模型真实能力退化，值得持

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 273

测评

11模型材料约束集体暴跌15分，Smoke评测揭示核心短板

今日Smoke轻量评测显示，11款主流模型主榜全线下滑，材料约束平均暴跌15分以上，多款从warn转为fail。代码执行保持满分，暴露模型在事实约束上的系统性退化。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 259

测评

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 325

测评

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 304

测评

Gemini 2.5 Pro 主榜暴跌35.6分，DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中，Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03，执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶，执行 100 分、约束 89.5 分（warn）领先，GPT-o3 紧

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测

2026年5月26日 351

测评

MLCommons公布2026 Rising Stars：39位机器学习系统新星入选

MLCommons公布第四届 Rising Stars 名单，39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向

MLC MLCommons 机器学习系统 AI人才

2026年5月25日 324

测评

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

文心一言4.5 代码执行 Smoke评测百度大模型

2026年5月25日 256

测评

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 247

测评

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 217

测评

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 386

测评

文心一言4.5工程判断从50暴跌至10，主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 289

测评

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 365

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 298

测评

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分，但材料约束从81分暴跌至58.4分，降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常，但需判断是否为真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 291

测评

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59，主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常，但-21.3分降幅超出历史均值，需观察是否为真实能力退化。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 323

测评

材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

今日Smoke评测显示，11款主流模型材料约束维度普遍暴跌18-29分，导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一，但约束仅59分且标warn；豆包Pro主榜暴跌37.2分，执行从高位直接腰斩至50分。核心问题集中在材料约

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 306

测评

Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7，主榜微跌1.4分。代码执行却从38.1跃升至50.0，诚信评级从warn转为pass。单日10题测试波动正常，但17.6分跌幅仍需警惕模型真实退化风险。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 289

AI测评