DeepSeek-V3:MLPerf Training v6.0的大规模MoE预训练基准
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架
AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous
MLPerf Inference v6.0 基准套件首次引入文本到视频(Text-to-Video)任务,标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引
MLCommons近日公布了MLPerf Client v0.6基准测试结果,这是首个针对客户端设备(如手机、笔记本)的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载,涵盖离线、服
MLCommons 宣布印度国家软件与服务公司协会(NASSCOM)正式加入其联盟,成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展,推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企
LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统,通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+
MLCommons近日公布了MLPerf Training v5.0基准测试结果,这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务,包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等,NV
MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L
MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、
MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H1
MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模