2025 MLC 新星榜单揭晓
MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L
MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批
MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果,这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable
MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instru
MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、
MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果,这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景,包括 GPT-3 风格模型的训练与推理。
MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质
MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标
MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SL
DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 L
MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果,这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准,涵盖数据中心离线(Offline)、服务器
MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly D
MLPerf Tiny v1.3 是针对边缘设备AI模型的最新基准套件,由MLCommons发布。该版本引入了图像分类(IC)和视觉唤醒词(VWW)两大全新基准,同时优化了关键词识别(KWS)和异常检测(AD)任务。基准聚焦于资源受限的微控
MLCommons 近日发布了 Croissant MCP(Model Card Profile),这是基于 Croissant 格式的创新扩展,旨在标准化 AI 模型的元数据描述。该标准简化了模型卡片的创建与共享,支持自动生成文档、提升可
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S
MLCommons 发布的《Training Flux.1》报告详解了 Black Forest Labs 的 Flux.1 模型训练过程。该模型采用 12B 参数的 DiT 架构,在海量高质量数据集上训练,支持文本到图像生成,性能媲美 M
MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H1
MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模
MLCommons近日公布了MLPerf Training v5.1基准测试结果,这是AI训练性能评估的最新一轮提交。NVIDIA继续领跑多数工作负载,凭借H100和H200 GPU集群刷新多项记录。新引入的Llama 70B FP8和St
MLCommons 近日发布了 MLPerf Client 1.5 基准测试套件,这是客户端 AI 推理性能评估的最新版本。该版本引入了多项优化和新场景,包括更真实的客户端负载模拟,支持热门模型如 BERT 和 Stable Diffusi