AI资讯 — 行业快报与全球报道

测评

Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01，代码执行单日暴跌9.5分，材料约束下降7.3分。工程判断同步下滑，任务表达却意外上涨20分，稳定性仅31.7分暴露明显波动。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 316

测评

Smoke轻测：豆包Pro执行100分独秀，9模型主榜暴跌30分以上

今日Smoke轻量评测显示，豆包Pro以主榜91.23分大幅领先，代码执行拿下满分100，其余10模型执行分普遍停留在50分或0分，Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分，核心原因指向测试集难度升级与模型一致性波动。

豆包 Pro 代码执行主榜暴跌评测异常

2026年5月22日 256

测评

豆包Pro主榜暴跌18.4分，代码执行一日暴降30.8，真实退化还是抽签运气？

豆包Pro今日Smoke评测主榜从96.06暴跌至77.64，代码执行单项暴降30.8分至66.7，材料约束微降，诚信评级从pass转为warn。小样本快测波动正常，但连续异常值得追踪。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 250

测评

Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

Gemini 2.5 Pro今日Smoke评测出现明显分化：材料约束从91.5暴跌至77.5，主榜却从74升至89.88。诚信评级从fail转为warn，工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动，还是模型真实能力退化。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 261

测评

Grok 4 98.34 分登顶，Claude Opus 主榜暴跌 31.3 分

今日 Smoke 轻量评测显示，Grok 4 以 98.34 分领跑，代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分，执行分直接腰斩至 38.1，诚信评级从 pass 转为 warn。Qwen3 Max 紧随其

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 264

测评

GPT-5.5暴跌19.2分！6模型WDCD守约测试集体退步

本轮WDCD测试中6个模型全部下滑，无一上升，GPT-5.5跌19.2分最惨，Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑，显示其在约束遵循上具备明显优势，值得持续追踪。

WDCD 守约测试模型对齐 AI能力退化

2026年5月20日 372

测评

WDCD五大场景横评：业务规则成最难关，Claude与Doubao偏科差距达2分

WDCD试点测试显示，业务规则场景全体得分最低，冠军仅2.5分；安全合规区分度最大，高低差2分。Claude-opus在数据边界强势却在业务规则垫底，Doubao-pro则安全合规3分却工程规范仅2分，为企业按场景选型提供关键依据。

WDCD 守约测试场景横评 AI模型选型

2026年5月20日 362

测评

R3崩溃率85%！11模型WDCD三轮测试：承诺到背叛的真实衰减曲线

WDCD三轮测试显示，R1平均确认率98%，R2抵抗率89%，但R3诚信率仅17.7%，85/110次完全崩溃。Claude系列相对抗压，Gemini与Grok崩盘最严重，暴露模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 AI模型衰减约束遵循

2026年5月20日 336

测评

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

WDCD守约测试显示Claude Opus以65分夺冠，R3阶段崩溃率高达77.3%，DeepSeek V4 Pro较上期暴跌12.5分垫底，头部与尾部差距达17.5分。

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 367

测评

Gemini 2.5 Pro主榜暴跌22.6分，工程判断直接腰斩

Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74，工程判断从66.7跌至30，任务表达从50跌至10，诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化，值得重点关注。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 277

测评

文心一言4.5诚信评级Fail，代码执行暴涨42.5分却侧榜崩盘

文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail，主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分，但工程判断和任务表达分别暴跌36.7分和40分，显示模型在一致性与指令遵循上出现明显退化。

文心一言4.5 诚信评级 Smoke评测侧榜波动

2026年5月20日 276

测评

Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示，Claude Sonnet 4.6以97.5分登顶，Gemini 3.1 Pro主榜暴跌23.2分，文心一言4.5诚信评级直接降为Fail，核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 280

测评

Claude Opus 4.7主榜暴跌22.6分，代码执行从100直接腰斩

Claude Opus 4.7今日Smoke评测主榜暴跌22.6分，代码执行从100分直接跌至50分，材料约束反升11分，需区分随机波动与真实能力退化。

Claude Opus 4.7 代码执行 Smoke评测模型波动

2026年5月19日 262

测评

豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro今日Smoke评测材料约束从95分跌至79.8分，暴跌15.2分，主榜下降6.8分至90.91。代码执行保持满分，工程判断与任务表达却有提升。单日10题快测下，这一变化更可能是题目抽签波动还是模型真实退化，值得拆解。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 255

测评

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑，Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分，代码执行从 100 直接腰斩至 50，Claude 两款模型同步崩盘，暴露执行能力严重退化。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 229

测评

11个AI同解连续登录SQL题：8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上，11个主流模型中8个拿下100分，3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败，暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

代码执行材料约束 SQL连续登录差距分析

2026年5月18日 322

测评

11个AI同答甩锅题，仅8款给出正确排序：工程判断力差异拉满

同一道“项目延期甩锅”题，11款主流模型中8款输出A>B>D>C并获60分，Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前，仅得0分。核心发现显示，工程判断与诚信排序能力在当前模型间已出现明显断层。

工程判断诚信评级甩锅测试项目延期

2026年5月18日 294

测评

11 个 AI 解同一道逻辑题，5 家正确 6 家集体出错

11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化：豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E，而 Claude、DeepSeek、文心一言等

工程判断逻辑推理模型对比排名测试

2026年5月18日 299

测评

11 模型同答 SQL 留存题：9 家 0 分，DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模

代码执行材料约束 SQL留存测试模型对比

2026年5月18日 290

测评

11个AI同答SQL题：3个直接0分，Claude与GPT为何崩盘

11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60，正确使用DATE_SUB或兼容INTERVAL语法；Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分，因日期区间

代码执行材料约束 SQL日期函数模型方言兼容性