AI基准相关AI资讯 | 赢政天下 AI

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型（LLM）开发日益采用稀疏计算，评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准，这是一个拥有671B总参数的Mixture-of-Experts（MoE）架

MLC AI基准 MoE模型 MLPerf Training

2026年5月6日 434

测评

新鲜基准，可靠分数：引入AI风险评估的持续提示管理

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous

MLC AI基准风险评估持续管理

2026年4月22日 463

测评

将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频（Text-to-Video）任务，标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模

MLC MLPerf Text-to-Video Wan2.2

2026年3月12日 896

测评

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引

MLC MLCommons CKAN Croissant

2026年2月10日 1,221

测评

MLPerf Client v0.6基准测试结果发布

MLCommons近日公布了MLPerf Client v0.6基准测试结果，这是首个针对客户端设备（如手机、笔记本）的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载，涵盖离线、服

MLC MLPerf 客户端推理 Llama 2

2026年2月10日 1,137

测评

NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLCommons 宣布印度国家软件与服务公司协会（NASSCOM）正式加入其联盟，成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展，推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企

MLC MLCommons NASSCOM AI基准

2026年2月10日 1,042

测评

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+

MLC AAAI 2025 Chatbot Arena Elo Rating

2026年2月10日 4,241

测评

MLPerf Training v5.0基准测试结果发布

MLCommons近日公布了MLPerf Training v5.0基准测试结果，这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务，包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等，NV

MLC MLPerf AI基准训练性能

2026年2月10日 1,058

测评

2025 MLC 新星榜单揭晓

MLCommons 发布了 2025 MLC Rising Stars 榜单，表彰在 MLPerf Inference v5.0 基准测试中使用 MLC（ML Compiler）框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L

MLCommons MLPerf MLC AI基准

2026年2月10日 924

测评

Storage 2 检查点机制详解

MLCommons Storage 2 基准聚焦AI训练中的检查点（Checkpointing）存储性能，这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架，包括关键指标如检查点保存时间、

MLC MLCommons Storage 2 Checkpointing

2026年2月10日 788

测评

训练 Llama 3.1 8B：MLCommons 基准详解

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告，由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程，包括数据准备、训练时长、能耗和性能指标。结果显示，在 4090 张 H1

MLC Llama 3.1 模型训练 MLCommons

2026年2月10日 973

测评

ISO-AUS：MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试，这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制，涵盖从边缘设备到云端服务器的多种场景。测试结果显示，领先模

MLC ISO-AUS AI基准 LMSYS

2026年2月10日 931

AI基准 相关资讯