AI资讯 — 行业快报与全球报道

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL

2026年2月21日 791

SGLang-Diffusion：生产级视频生成的高级优化

继两月进展更新后，SGLang-Diffusion团队深入剖析了多项高级优化，使其成为可靠的生产级视频生成框架。这些优化聚焦可扩展性、效率与稳定性，针对扩散模型大规模部署的关键瓶颈。核心改进包括：从帧级到Token级SP-Sharding减

LMSYS SGLang-Diffusion 视频生成扩散模型

2026年2月18日 1,003

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 929

测评

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

谷歌Gemini遭模型蒸馏攻击曝光后，winzheng Research Lab最新报告剖析DeepSeek事件，揭示攻击链条全貌。从API异常调用到混合训练路径，事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系，

DeepSeek 模型蒸馏 AI安全知识蒸馏

2026年2月14日 1,628

测评

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67

LMSYS Qwen3 Qwen3-VL AMD MI300X

2026年2月13日 1,383

测评

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为

MLC AI标准可靠性 MLCommons

2026年2月13日 1,275

测评

Croissant 1.1 新功能：可扩展、代理就绪的 ML 数据集标准

MLCommons 发布 Croissant 1.1，这是社区共建的机器学习数据集元数据格式最新版本。在 Croissant 1.0 标准化机器可读结构基础上，1.1 版新增机器可操作来源追踪、全方位词汇互操作性、结构化使用政策以及复杂多维

MLC Croissant 1.1 ML数据集元数据标准

2026年2月13日 1,261

测评

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,538

测评

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引

MLC MLCommons CKAN Croissant

2026年2月10日 1,215

测评

MLCommons发布Ailuminate法语数据集

MLCommons组织近日推出Ailuminate基准的法语数据集版本，进一步扩展多语言大语言模型（LLM）评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务，总计超过10万条高质量法语样本，由专业标注团队构建，确保文化适应性和准确性

MLC Ailuminate 法语数据集 MLCommons

2026年2月10日 982

测评

MLPerf Client v0.6基准测试结果发布

MLCommons近日公布了MLPerf Client v0.6基准测试结果，这是首个针对客户端设备（如手机、笔记本）的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载，涵盖离线、服

MLC MLPerf 客户端推理 Llama 2

2026年2月10日 1,130

测评

NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLCommons 宣布印度国家软件与服务公司协会（NASSCOM）正式加入其联盟，成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展，推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企

MLC MLCommons NASSCOM AI基准

2026年2月10日 1,035

测评

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+

MLC AAAI 2025 Chatbot Arena Elo Rating

2026年2月10日 4,233

测评

MLPerf Training v5.0基准测试结果发布

MLCommons近日公布了MLPerf Training v5.0基准测试结果，这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务，包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等，NV

MLC MLPerf AI基准训练性能

2026年2月10日 1,051

测评

ATX基准专家面板深度解析

MLCommons近日举办的ATX（Agent Testing eXploration）基准专家面板讨论，由LMSYS Org等机构参与，聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径，

MLC ATX基准 AI代理评估 Chatbot Arena

2026年2月10日 886

测评

2025 MLC 新星榜单揭晓

MLCommons 发布了 2025 MLC Rising Stars 榜单，表彰在 MLPerf Inference v5.0 基准测试中使用 MLC（ML Compiler）框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L

MLCommons MLPerf MLC AI基准

2026年2月10日 913

测评

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批

MLC Ares基准 LMSYS MLCommons

2026年2月10日 911

测评

MLPerf Mobile Android v4.0 基准测试结果重磅发布

MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果，这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable

MLC MLPerf 移动AI Android基准

2026年2月10日 879

测评

MLPerf Client v1.0发布：首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果，这是首个针对移动和边缘设备的AI推理基准，涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instru

MLC MLPerf 客户端推理 AI基准测试

2026年2月10日 932

测评

Storage 2 检查点机制详解

MLCommons Storage 2 基准聚焦AI训练中的检查点（Checkpointing）存储性能，这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架，包括关键指标如检查点保存时间、

MLC MLCommons Storage 2 Checkpointing

2026年2月10日 781

AI测评