AI资讯 — 行业快报与全球报道

WDCD守约榜：Gemini 3.1 Pro并列称王，Grok 4惨垫底！头部甩尾22.5分

WDCD守约测试试点揭晓：Gemini 3.1 Pro与Qwen3 Max并列第一（65.00分），Grok 4垫底（42.50分）。头部梯队稳健，R3崩溃率高达69.1%。Gemini系列迭代提升明显，Grok大跌7.5分，凸显AI守约能

WDCD 守约测试 AI模型排名赢政指数

2026年5月13日 401

测评

Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 380

测评

Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期

Gemini 3.1 Pro 诚信评级 Smoke评测 AI模型波动

2026年5月13日 328

测评

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 355

原创

纳德拉作证，OpenAI使命之争升级

微软CEO纳德拉于2026年5月11日在马斯克诉OpenAI案中作证，核心争议是OpenAI是否在微软参与下偏离非营利使命。本文从事实、技术架构与AI治理角度分析其影响。

OpenAI 微软 AI治理

2026年5月12日 329

原创

Anthropic于2026年5月11日发布Claude宪法有声书，引发透明与Sonnet 4.5退役争议

Anthropic于2026年5月11日推出Claude宪法有声书，由作者Amanda Askell和Joe Carlsmith朗读，并附Q&A讨论。支持者视其为AI透明与安全进步，但用户指责公司退役Sonnet 4.5模型涉嫌伪善，违背福

AI安全 Anthropic Claude模型

2026年5月12日 827

原创

OpenAI推出Daybreak AI网络防御计划引发可靠性质疑

2026年5月11日，OpenAI宣布推出Daybreak计划，利用AI提升软件安全防护，支持者视其为及时创新，能加速应对演化威胁；批评者则质疑OpenAI的可靠性，引用过去模型退休、潜在误用及近期工具恶意软件问题。作为AI专业门户，win

OpenAI 网络安全 AI技术

2026年5月12日 566

测评

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 416

测评

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 292

测评

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

测评

2026 主流 AI 评测基准横向对比：赢政指数 vs SuperCLUE vs OpenCompass vs C-Eval

横向对比赢政指数、SuperCLUE、OpenCompass、C-Eval 四大中文AI评测基准，从代码执行、长文档理解、诚信检测、约束衰减四个维度分析各自优劣。

AI评测赢政指数 SuperCLUE OpenCompass

2026年5月11日 1,616

原创

Instruction Decay: Why Your AI Forgets Rules Mid-Conversation

Instruction decay is a newly identified failure mode where AI models gradually abandon user constraints during multi-tur

instruction decay WDCD AI benchmark multi-turn

2026年5月11日 297

测评

11大AI模型SQL连续登录题大考：8满分3崩盘，代码执行差距惊人

在同一道SQL题“连续登录天数”中，11个AI模型表现分化：豆包Pro、文心一言等8款满分100分，DeepSeek V4 Pro、GPT-o3等3款0分。分析揭示，成功者巧用ROW_NUMBER()分组，失败者语法或逻辑崩盘，凸显代码执行

代码执行 SQL AI模型对比连续登录天数

2026年5月11日 401

测评

GPT-o3一道题从100跌0，主榜反而涨了

GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0，但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。

GPT-o3 代码执行严格题 Debug事故

2026年5月11日 373

测评

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 429

原创

4大模型翻译对决：第20周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 215 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 deepseek-v4-flash deepseek-v4-pro

2026年5月11日 384

测评

WDCD测的不只是模型，是整个行业的盲区

WDCD的意义不只在榜单分数，而在揭示行业盲区。Run #105中110个案例有59例完美开局最终溃退，Q239更是11/11全军覆没。没有模型R3满分，行业一直在测量智力却忽略了纪律，WDCD填补了多轮行为一致性这个关键评测空白。

WDCD 行业盲区评测体系模型可信度

2026年5月11日 363

测评

WDCD选型指南：企业选模型，不要再只问"谁第一"

总分只反映平均水平，场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首，但同为2.5的ERNIE 4.5以R3=0.8最抗压，Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首，要匹配自身风险场景。

WDCD 企业选型场景矩阵模型对比

2026年5月11日 343

测评

为什么WDCD会成为Agent时代的"Crash Test"

汽车需要碰撞测试，企业Agent需要守约测试。Run #105中11个模型满分3.0无人达到，Qwen3-Max最高2.6仅四星水平，Q239让所有模型全部撞毁。WDCD不是证明模型完美，而是像EuroNCAP一样在上线前找到碰撞断裂点。

WDCD 碰撞测试 Agent安全压力测试

2026年5月11日 381

测评

WDCD警示：当模型把硬约束听成建议，风险就开始了

"必须""禁止""不能"在工程里是硬边界，在模型语义里却被软化为建议。Run #105中Q227的七折底线被8/11模型改成三折，Q226的重试上限被9/11模型变成无限循环。59例衰减证明模型不是忘了规则，而是把规则降级为参考。

WDCD 硬约束软化约束分类规则与建议

2026年5月11日 340

原创