MLC 相关AI资讯 | 赢政天下 AI

MLCommons公布2026 Rising Stars：39位机器学习系统新星入选

MLCommons公布第四届 Rising Stars 名单，39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向

MLC MLCommons 机器学习系统 AI人才

2026年5月25日 332

测评

GPT-OSS 20B：MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准，用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化，将训练波动显著压低，目标是让成绩更真实反映

MLC MLPerf Training GPT-OSS 20B MoE

2026年5月14日 440

测评

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型（LLM）开发日益采用稀疏计算，评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准，这是一个拥有671B总参数的Mixture-of-Experts（MoE）架

MLC AI基准 MoE模型 MLPerf Training

2026年5月6日 435

测评

AI可靠性地图：规则与环境

AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性，这不仅能推动市场增长，还能保护社会安全。通过制定详细计划并实施，确保AI系统在不同阶段的可靠性。

MLC AI可靠性 MLCommons AI风险管理

2026年4月25日 458

测评

新鲜基准，可靠分数：引入AI风险评估的持续提示管理

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous

MLC AI基准风险评估持续管理

2026年4月22日 463

测评

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6，这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备，模拟真实生成式 AI 任务，如文本摘要、内容创作和代码分析，提供响应速度和吞吐量

MLC MLPerf Client AI基准测试性能优化

2026年4月7日 630

测评

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级，以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展

MLC MLPerf Inference AI基准测试大语言模型

2026年4月2日 1,044

测评

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 794

测评

生成式AI服务评估标准化：API导向基准测试新范式

生成式AI迅猛发展，ChatGPT用户从中2023年中至2025年初增长约8倍，各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏，MLPerf Endpoints应运而生，由MLCommons联合创始人David Kanter在GTC

MLC MLPerf Endpoints 生成式AI基准 API测试

2026年3月20日 736

测评

全球标准，本地真实：亚太多语言多模态AI安全基准试点

AI作为当今采用速度最快的通用技术，其全球普及却存在显著差距，反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark，针对亚太地区开发文化特定的多语言多模

MLC AI安全多模态基准文化风险

2026年3月14日 882

测评

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 880

测评

将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频（Text-to-Video）任务，标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模

MLC MLPerf Text-to-Video Wan2.2

2026年3月12日 896

测评

MedPerf 集成 Apache Airflow，提升联邦临床研究数据准备体验

MLCommons 医疗工作组通过 MedPerf 开源平台推进医疗 AI/ML 模型的真实世界基准测试与评估。最新集成 Apache Airflow，大幅简化联邦临床研究中的数据准备管道的分发、编排与监控。针对以往单容器方法带来的错误、调

MLC MedPerf Apache Airflow 联邦学习

2026年3月12日 644

测评

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL

MLC AI风险可靠性保障 AILuminate

2026年2月21日 799

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 934

测评

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为

MLC AI标准可靠性 MLCommons

2026年2月13日 1,281

测评

Croissant 1.1 新功能：可扩展、代理就绪的 ML 数据集标准

MLCommons 发布 Croissant 1.1，这是社区共建的机器学习数据集元数据格式最新版本。在 Croissant 1.0 标准化机器可读结构基础上，1.1 版新增机器可操作来源追踪、全方位词汇互操作性、结构化使用政策以及复杂多维

MLC Croissant 1.1 ML数据集元数据标准

2026年2月13日 1,268

测评

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,545

测评

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引

MLC MLCommons CKAN Croissant

2026年2月10日 1,221

测评

MLCommons发布Ailuminate法语数据集

MLCommons组织近日推出Ailuminate基准的法语数据集版本，进一步扩展多语言大语言模型（LLM）评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务，总计超过10万条高质量法语样本，由专业标注团队构建，确保文化适应性和准确性

MLC Ailuminate 法语数据集 MLCommons

2026年2月10日 989

MLC 相关资讯