AI资讯 — 行业快报与全球报道

测评

Gemini 2.5 Pro判断力清零：拿到P0级安全事故却选择汇报了事

本周评测爆出重大问题：面对客户数据泄露这种P0级安全事故，Gemini 2.5 Pro竟然只是选择"立即上报"，完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。

Gemini 2.5 Pro 工程判断力数据安全事故 AI决策失误

2026年3月21日 554

测评

Gemini 2.5 Pro时区推理100分变0：大模型的常识盲区有多可怕

Gemini 2.5 Pro在最新评测中遭遇滑铁卢：时区推理题从满分直接跌至0分，综合评分下降2.9分。这道看似简单的题目暴露了大模型在处理现实世界常识问题时的致命缺陷。

Gemini 2.5 Pro 严格题测试时区推理模型可靠性

2026年3月21日 495

测评

文心4.0一行代码暴露致命缺陷：当AI连字典都不认识

文心一言4.0在最新评测中出现戏剧性崩盘：原本满分的Python字典推导题目直接跌至0分，输出结果暴露出模型对基础数据结构的理解出现严重混乱，稳定性评分暴跌3.7分。

文心一言4.0 编程能力代码生成模型退化

2026年3月21日 643

测评

豆包Pro满分题归零：AI在真实安全事件中为何集体失声

豆包Pro在最新评测中遭遇戏剧性滑铁卢：原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景，为何会出现如此离谱的判断失误？原始回答暴露了什么深层问题？

豆包Pro 工程判断力安全事件响应 AI测评

2026年3月21日 621

测评

Claude 4.6崩了：100分安全题全军覆没背后的致命缺陷

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 492

测评

GPT-o3暴涨8.7分背后：11个AI模型本周评测揭秘3个危险信号

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 427

原创

Sora 2.0：生成式AI的双刃剑与监管挑战

Sora 2.0的推出引发了对虚假信息泛滥的担忧，尽管其在创意产业中的潜力巨大。这一现象揭示了生成式AI技术的双重性质，对监管和安全措施提出了新的挑战。

生成式AI 虚假信息技术监管

2026年3月21日 474

原创

Meta Llama 4 开源引爆安全辩论：AI 民主化还是全球风险？

Meta 近日开源 Llama 4 模型，扎克伯格宣称“民主化 AI”，获开发者热捧却遭安全专家抨击。正反舆论各 4 万互动，凸显开源 vs 闭源路线之争。winzheng.com 分析：事件背后是 AI 军备竞赛中的技术扩散隐忧，呼吁强化

AI开源 Llama4 Meta 安全风险

2026年3月21日 782

原创

斯坦福Mamba-2架构强势登场：Transformer霸权面临效率革命？

斯坦福SAIL发布Mamba-2论文（arXiv预印本确认），宣称推理速度比Transformer快5倍，能耗大幅降低，引发学术界热议。本文深度剖析其SSM技术原理、性能数据及深层产业影响。作为AI专业门户，winzheng.com认为Ma

Mamba-2 Transformer AI架构斯坦福SAIL

2026年3月21日 662

原创

DeepMind AlphaFold 3首创AI设计抗癌药进入临床试验：AI制药从预测到创造的质变

DeepMind的AlphaFold 3从零设计抗癌药物DM-301进入I期临床试验，《自然》杂志封面论文确认，此举标志AI制药从结构预测迈向分子创造。制药业震动，开启万亿市场，但临床不确定性需警惕。winzheng.com分析其技术深层突

AI药物设计 DeepMind AlphaFold3 临床试验

2026年3月21日 523

原创

Cursor Composer 2引爆开发者狂潮：性能惊艳却陷Kimi K2.5透明度危机

过去48小时X平台最热门AI产品是Cursor新发布的Composer 2。该模型在SWE-Bench Verified、LiveCodeBench等多项基准中超越Claude Opus 4.6，支持超200K tokens上下文、全代码库

Cursor Composer 2 Cursor AI Kimi K2.5 Moonshot争议

2026年3月21日 1,329

原创

Supermicro走私案起诉书关键段落提取

来源：美国纽约南区联邦法院正式解封起诉书，26 Cr. 00100，2026年3月19日，以下为起诉书中最核心、最具代表性的段落（逐字摘录英文原文，并附简要中文说明）。我已按逻辑顺序精选8段，涵盖案情介绍、指控、走私手法、金额规模、被告角色

Supermicro走私案 Wally Liaw起诉 25亿美元走私 Nvidia芯片出口

2026年3月21日 709

原创

Supermicro走私案起诉细节：联合创始人Wally Liaw被控25亿美元Nvidia AI芯片非法出口中国

2026年3月19日，美国司法部正式起诉Supermicro联合创始人Wally Liaw（71岁）等三人，指控他们通过东南亚壳公司、擦除服务器序列号、使用假服务器摆拍审计等手段，将价值至少25亿美元的Nvidia高端AI服务器（含Hopp

Supermicro走私案 Wally Liaw起诉 25亿美元走私 Nvidia芯片出口

2026年3月21日 1,488

原创

Supermicro 25亿美元AI芯片走私案引爆全球：中美AI技术战进入危险新阶段

过去48小时X平台最具争议AI话题是美国司法部起诉Supermicro联合创始人Wally Liaw等多名高管，指控其通过复杂供应链走私价值25亿美元的AI服务器和Nvidia高端芯片至中国，严重违反出口管制法。事件导致Supermicro

Supermicro走私案 Nvidia芯片走私 AI供应链中美AI战

2026年3月21日 918

测评

Qwen Max知识工作能力骤降9.8分：逻辑推理失准成最大短板

本周Qwen Max在知识工作维度出现显著下滑，得分从81.6降至71.8，降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步，特别是在经典的"谁说了谎"推理题上，得分从50分直降至25分。逻辑推理能力出现系统性偏差在"

Qwen Max AI评测赢政指数

2026年3月20日 750

测评

AI模型对批量操作故障排查能力的层次化分析

AI模型对批量操作故障排查能力的层次化分析在这道考察工程判断力的题目中，8个AI模型展现出了明显的能力分层。题目的核心在于识别"单条成功但批量失败"这一典型的并发问题模式。第一梯队：精准定位问题本质DeepSeek V3和R1（均得20分）

赢政指数模型横评工程判断力：批量操作单条失败排查 AI评测

2026年3月20日 688

测评

AI模型对OG卡片图异常排查问题的应答分析

在这道工程判断力测试题中，8个AI模型展现出了明显的理解深度差异。题目描述了一个典型的生产环境调试场景：同一套代码对不同输入产生不同结果，要求判断第一步排查动作。回答质量分层明显，高分组（80分）包括Claude Sonnet 4.6、Cl

赢政指数模型横评工程判断力：OG卡片图异常排查 AI评测

2026年3月20日 960

测评

工程判断力测试：8大AI模型数据库误删恢复方案对比分析

在数据库误删恢复这道工程判断力题目中，8个主流AI模型展现出了显著的理解差异和应对策略分歧。题目的核心考点在于：面对线上数据库误删事故，工程师应该采取的第一步行动。理解偏差：两大阵营泾渭分明从得分分布看，模型呈现明显的两极分化：5个模型获得

赢政指数模型横评工程判断力：数据库误删恢复 AI评测

2026年3月20日 655

测评

AI模型时区推理能力对比：细节决定成败

在这道看似简单的时区转换题目中，8个顶级AI模型展现出了明显的能力分化。题目要求从北京时间（UTC+8）3月15日周六15:00出发，计算4个城市的当地时间和星期几。完全正确组（5个模型）：Claude Sonnet 3.5、Gemini

赢政指数模型横评时区推理 AI评测

2026年3月20日 607

测评

AI模型逻辑推理能力分化明显：半数模型陷入推理陷阱

AI模型逻辑推理能力分化明显：半数模型陷入推理陷阱在这道看似简单的逻辑推理题中，8个主流AI模型呈现出截然不同的表现，正确率仅为50%，暴露出当前AI在逻辑推理领域的显著差异。正确阵营的共同特征 Claude Sonnet 4.6、Clau

赢政指数模型横评逻辑推理 AI评测

2026年3月20日 464