DeepSeek-V3:MLPerf Training v6.0的大规模MoE预训练基准
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架
AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性,这不仅能推动市场增长,还能保护社会安全。通过制定详细计划并实施,确保AI系统在不同阶段的可靠性。
AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous
MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量
MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,
生成式AI迅猛发展,ChatGPT用户从中2023年中至2025年初增长约8倍,各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏,MLPerf Endpoints应运而生,由MLCommons联合创始人David Kanter在GTC
AI作为当今采用速度最快的通用技术,其全球普及却存在显著差距,反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark,针对亚太地区开发文化特定的多语言多模
MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11,这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP
MLPerf Inference v6.0 基准套件首次引入文本到视频(Text-to-Video)任务,标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模
MLCommons 医疗工作组通过 MedPerf 开源平台推进医疗 AI/ML 模型的真实世界基准测试与评估。最新集成 Apache Airflow,大幅简化联邦临床研究中的数据准备管道的分发、编排与监控。针对以往单容器方法带来的错误、调
人工智能行业正处于转折点,企业将AI从实验阶段推向金融、医疗和制造等关键业务时,可靠性验证成为核心障碍。MLCommons联盟(包括KPMG、Google、Microsoft和Qualcomm)推出AILuminate全球保障计划(AIL
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射
人工智能正从消费级聊天工具转型为驱动企业服务的通用技术,却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠,方能广泛部署。克服此挑战依赖评估标准,将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为
MLCommons 发布 Croissant 1.1,这是社区共建的机器学习数据集元数据格式最新版本。在 Croissant 1.0 标准化机器可读结构基础上,1.1 版新增机器可操作来源追踪、全方位词汇互操作性、结构化使用政策以及复杂多维
计算规模扩展遵循神经缩放定律,已显著减少自然语言处理和计算机视觉领域的手动特征工程需求,转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统,传统依赖MLP、GNN和嵌入表架构,如今大型序列
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引
MLCommons组织近日推出Ailuminate基准的法语数据集版本,进一步扩展多语言大语言模型(LLM)评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务,总计超过10万条高质量法语样本,由专业标注团队构建,确保文化适应性和准确性
MLCommons近日公布了MLPerf Client v0.6基准测试结果,这是首个针对客户端设备(如手机、笔记本)的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载,涵盖离线、服
MLCommons 宣布印度国家软件与服务公司协会(NASSCOM)正式加入其联盟,成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展,推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企