AI资讯 — 行业快报与全球报道

测评

豆包Pro满分题归零：AI在真实安全事件中为何集体失声

豆包Pro在最新评测中遭遇戏剧性滑铁卢：原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景，为何会出现如此离谱的判断失误？原始回答暴露了什么深层问题？

豆包Pro 工程判断力安全事件响应 AI测评

2026年3月21日 614

测评

Claude 4.6崩了：100分安全题全军覆没背后的致命缺陷

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 486

测评

GPT-o3暴涨8.7分背后：11个AI模型本周评测揭秘3个危险信号

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 419

测评

生成式AI服务评估标准化：API导向基准测试新范式

生成式AI迅猛发展，ChatGPT用户从中2023年中至2025年初增长约8倍，各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏，MLPerf Endpoints应运而生，由MLCommons联合创始人David Kanter在GTC

MLC MLPerf Endpoints 生成式AI基准 API测试

2026年3月20日 729

测评

Qwen Max知识工作能力骤降9.8分：逻辑推理失准成最大短板

本周Qwen Max在知识工作维度出现显著下滑，得分从81.6降至71.8，降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步，特别是在经典的"谁说了谎"推理题上，得分从50分直降至25分。逻辑推理能力出现系统性偏差在"

Qwen Max AI评测赢政指数

2026年3月20日 742

测评

AI模型对批量操作故障排查能力的层次化分析

AI模型对批量操作故障排查能力的层次化分析在这道考察工程判断力的题目中，8个AI模型展现出了明显的能力分层。题目的核心在于识别"单条成功但批量失败"这一典型的并发问题模式。第一梯队：精准定位问题本质DeepSeek V3和R1（均得20分）

赢政指数模型横评工程判断力：批量操作单条失败排查 AI评测

2026年3月20日 683

测评

AI模型对OG卡片图异常排查问题的应答分析

在这道工程判断力测试题中，8个AI模型展现出了明显的理解深度差异。题目描述了一个典型的生产环境调试场景：同一套代码对不同输入产生不同结果，要求判断第一步排查动作。回答质量分层明显，高分组（80分）包括Claude Sonnet 4.6、Cl

赢政指数模型横评工程判断力：OG卡片图异常排查 AI评测

2026年3月20日 952

测评

工程判断力测试：8大AI模型数据库误删恢复方案对比分析

在数据库误删恢复这道工程判断力题目中，8个主流AI模型展现出了显著的理解差异和应对策略分歧。题目的核心考点在于：面对线上数据库误删事故，工程师应该采取的第一步行动。理解偏差：两大阵营泾渭分明从得分分布看，模型呈现明显的两极分化：5个模型获得

赢政指数模型横评工程判断力：数据库误删恢复 AI评测

2026年3月20日 647

测评

AI模型时区推理能力对比：细节决定成败

在这道看似简单的时区转换题目中，8个顶级AI模型展现出了明显的能力分化。题目要求从北京时间（UTC+8）3月15日周六15:00出发，计算4个城市的当地时间和星期几。完全正确组（5个模型）：Claude Sonnet 3.5、Gemini

赢政指数模型横评时区推理 AI评测

2026年3月20日 598

测评

AI模型逻辑推理能力分化明显：半数模型陷入推理陷阱

AI模型逻辑推理能力分化明显：半数模型陷入推理陷阱在这道看似简单的逻辑推理题中，8个主流AI模型呈现出截然不同的表现，正确率仅为50%，暴露出当前AI在逻辑推理领域的显著差异。正确阵营的共同特征 Claude Sonnet 4.6、Clau

赢政指数模型横评逻辑推理 AI评测

2026年3月20日 456

测评

赢政指数周报：知识工作能力集体下滑，Claude逆势稳定

本周（2026-W12）赢政指数评测显示，AI模型市场出现了罕见的知识工作能力集体下滑现象。8个主流模型中，有6个在知识工作维度出现不同程度的性能下降，其中GPT-o3暴跌12.1分，创下近期最大单项跌幅。核心发现：知识工作能力普遍退化数据

赢政指数周报 AI评测 2026-W12

2026年3月20日 389

测评

GPT-o3知识工作暴跌12分：逻辑推理能力疑似退化

本周GPT-o3在知识工作维度出现罕见的断崖式下跌，从82.4分骤降至70.3分，降幅达14.7%。这一异常变化主要集中在逻辑推理和翻译任务上，值得深入分析。核心问题：逻辑推理能力显著退化最严重的失分项是"排班冲突"题目，得分从满分100直

赢政指数 AI评测 GPT-o3 事故分析

2026年3月20日 458

测评

GPT-o3性能断崖式下跌：知识工作能力暴跌12.1分背后的技术隐患

本周GPT-o3在知识工作维度出现严重性能退化，得分从82.4分骤降至70.3分，降幅达12.1分。这一异常表现集中体现在逻辑推理和语言理解两个核心能力上，引发了对模型稳定性的深度担忧。逻辑推理能力严重退化最典型的案例是"排

GPT-o3 性能断崖式下跌 AI评测赢政指数

2026年3月20日 483

测评

全球标准，本地真实：亚太多语言多模态AI安全基准试点

AI作为当今采用速度最快的通用技术，其全球普及却存在显著差距，反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark，针对亚太地区开发文化特定的多语言多模

MLC AI安全多模态基准文化风险

2026年3月14日 876

测评

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 871

测评

将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频（Text-to-Video）任务，标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模

MLC MLPerf Text-to-Video Wan2.2

2026年3月12日 890

测评

MedPerf 集成 Apache Airflow，提升联邦临床研究数据准备体验

MLCommons 医疗工作组通过 MedPerf 开源平台推进医疗 AI/ML 模型的真实世界基准测试与评估。最新集成 Apache Airflow，大幅简化联邦临床研究中的数据准备管道的分发、编排与监控。针对以往单容器方法带来的错误、调

MLC MedPerf Apache Airflow 联邦学习

2026年3月12日 638

测评

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super，这是 Nemotron 3 系列领先的开源模型，专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构，每前向传播仅

LMSYS SGLang Nemotron 3 Super 多代理系统

2026年3月12日 1,166

测评

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在I

LMSYS SGLang NVIDIA GB300 推理性能

2026年3月5日 866

测评

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggreg

LMSYS GB300 NVL72 DeepSeek SGLang

2026年2月21日 1,017