AI资讯 — 行业快报与全球报道

前谷歌CEO施密特AI演讲遭嘘声学生就业警惕与支持者反智论激烈碰撞

2026年5月17日亚利桑那州大学毕业典礼上，前谷歌CEO埃里克·施密特谈及AI发展引发学生集体嘘声。事件经Polymarket等传播后，AI支持者与反对者观点尖锐对立。本文从深层社会经济动因出发，结合多源核验事实，分析异常信号背后原因，并

AI就业冲击毕业演讲争议施密特AI观点

2026年5月18日 459

测评

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 245

测评

Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84，代码执行从100直接跌到75，诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化，值得重点追踪。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 201

测评

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 243

原创

Anthropic获Gates基金会2亿美元合作推出Claude中小企业服务

Anthropic于5月15日宣布与Bill & Melinda Gates Foundation达成2亿美元战略合作，同时推出Claude for Small Business服务，目标是将Claude AI快速部署到中小企业日常运营中。

AI技术 Anthropic 中小企业数字化

2026年5月17日 467

原创

OpenAI发布Daybreak AI工具：GPT-5.5自动修补零日漏洞终结90天政策

OpenAI于5月15日正式推出Daybreak AI网络安全工具，由GPT-5.5驱动，能在攻击者利用前自动发现并修补零日漏洞。该工具与Cisco、Cloudflare合作，标志传统90天漏洞披露政策终结。本文从产品创新、不足、同类对比及

AI安全 OpenAI 零日漏洞

2026年5月17日 426

原创

Anduril 50亿美元融资估值610亿美元国防AI资本加速背后的技术风险

Anduril于5月15日宣布完成50亿美元融资，估值达610亿美元，资金将投向无人机自主系统、战场决策AI及指挥系统。该事件经多家媒体与Google搜索证实，反映国防科技资本涌入趋势。本文从winzheng.com技术价值观出发，分析异常

Anduril 国防AI 融资分析

2026年5月17日 375

原创

WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%

WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction de

WDCD AI benchmark instruction decay multi-turn

2026年5月17日 345

测评

WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

本轮WDCD测试中GPT-5.5以71.67分重回第一，Gemini 2.5 Pro单轮暴涨14.2分杀入前五，而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示，主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

WDCD 守约测试模型更新上下文衰减

2026年5月17日 356

测评

资源限制成WDCD最难场景，豆包3.5分业务规则逆袭GPT

WDCD五场景横评显示，资源限制全体得分最低（冠军仅2.67分），业务规则区分度最大（豆包3.5 vs 垫底2.33）。GPT-5.5安全合规3.5分最强，Claude Opus工程与资源双料领先，豆包严重偏科。

WDCD 守约测试模型横评资源限制

2026年5月17日 333

测评

R3崩溃率93.3%！Grok4 WDCD三轮测试首轮全守末轮崩盘

11模型WDCD三轮测试显示，R1平均确认率96%，R2抵抗率91%，R3诚信率骤降至30.6%，203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%，Qwen3 Max相对稳健0.83分，揭示模型“嘴上答应身体诚实”的普遍规律

WDCD 守约测试模型衰减 R3压力测试

2026年5月17日 326

测评

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 278

测评

Claude Sonnet 4.6 主榜暴跌12.3分材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分，材料约束维度从96.30暴跌至69.00，单日下降27.3分。代码执行保持满分100分，诚信评级维持pass，需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 347

测评

Claude Opus 4.7 Smoke评测主榜暴跌9分，材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75，材料约束从95分跌至75分，单日损失20分。代码执行保持满分，工程判断小涨，其他维度持平。需区分随机题目波动与真实能力退化。

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 337

测评

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 337

测评

三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一，但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分，Grok 4与DeepSe

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代

2026年5月17日 327

原创

NTE游戏开发商确认禁用AI核心资产社区质量效率争议对立

5月15日NTE游戏开发团队在采访中确认，未来核心资产与角色绘制不会使用AI生成，优先保障质量与口碑。此声明直接回应近期AI使用争议，X平台社区出现明显两极分化。支持者认为此举保护创意，反对者则担忧效率受阻。winzheng.com Res

AI游戏开发资产争议质量优先

2026年5月16日 239

原创

英伟达发布2.6B开源世界模型创新突破引发安全争议

5月15日英伟达正式开源2.6B参数世界模型，支持单图+文本+轨迹可控生成，可单GPU运行。模型代码与论文同步公开，在X平台引发支持民主化研究与担忧技术滥用的激烈争论。本文基于已核验事实，分析其技术创新、潜在不足，并提出开发者和企业应用建议

英伟达世界模型 AI开源安全争议

2026年5月16日 407

原创

Anthropic 呼吁美国激进对华AI政策安全实验室定位引激烈争议

Anthropic于5月14日发布论文，敦促美国政府在AI领域采取更激进措施对抗中国。此前该公司因“过于谨慎”被五角大楼列入黑名单，此举在X平台引发正反激烈辩论。文章从技术价值观角度分析异常信号深层原因，区分事实与观点，并给出独立判断。

Anthropic AI政策中美科技安全实验室

2026年5月16日 231

测评

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 378

原创

前谷歌CEO施密特AI演讲遭嘘声 学生就业警惕与支持者反智论激烈碰撞