MLPerf Auto v0.5 基准结果发布:LMSYS Org 领跑

MLPerf Auto v0.5 基准概述

MLCommons 发布了 MLPerf Auto v0.5 的最新结果,这是 AutoML 领域的权威基准测试,专注于自动化超参数调优和模型选择。不同于传统 CV 或 NLP 任务,本版特别针对大型语言模型(LLM)场景,引入了 Chatbot Arena 的 Elo Rating 作为质量代理指标,以反映真实用户偏好。

LMSYS Org 的领先 submission

LMSYS Org(lmsys.org)提交的结果位居榜首。他们开发了基于 Chatbot Arena Hard Auto 的自动化管道,利用数百万用户投票数据驱动优化过程。

  • 核心技术栈:SGLang 运行时 + vLLM 后端,支持高效的连续批处理和 PagedAttention。
  • 目标模型:Llama 3.1 405B-Instruct,在 8x H100 GPU 上训练。
  • 关键结果Elo Rating: 1312(最高分),质量-时间积分为 1.28e6,远超基准线。

他们的方法通过强化学习(RL)微调和架构搜索,实现了在有限计算预算下的最优 Elo 提升。

其他参赛者表现

Google Cloud 使用 AutoML Tables,NVIDIA 提交了基于 NeMo 的优化结果,取得了 Elo 1275 和 1280 分。但在多目标优化(质量 vs. 效率)上,LMSYS 的 Pareto 前沿更优。

提交者最高 Elo时间 (s)硬件
LMSYS Org131272008x H100
Google12758500TPU v5p
NVIDIA128068008x H200

技术亮点与启示

本次基准引入了 分布式 AutoML,支持多节点协作搜索。LMSYS 的创新在于将 Arena 数据实时集成,避免了合成数据集的偏差。同时,SGLang 的零开销批处理显著降低了推理延迟。

结果表明,LLM AutoML 正从静态基准转向动态用户驱动优化,未来将进一步融入多模态任务。

完整结果详见 MLCommons 官网