AI评估披露困境:传统补丁模式为何失效

MLCommons指出,AI系统与传统软件不同,其评估发现具有双重用途、无法通过补丁修复,且开放权重模型的危害会永久存在。协调漏洞披露(CVD)模式因此失效。文章分析了三大核心挑战:发现易被滥用、过度反馈会污染测试、无法集中修复模型。MLCommons正推动ISO/IEC TS 42119-8标准制定,并为即将发布的越狱基准制定负责任披露政策,以保护公共安全、评估完整性及不可修复系统。

MLC AI安全 模型评估
150

Chakra 走向成熟:AI 系统基准测试标准化生态

MLCommons Chakra 工作组于 2023 年成立,旨在解决 AI 系统快速发展带来的基准测试与软硬件协同设计难题。通过标准化执行追踪(Execution Trace),Chakra 提供了一个开放、可互操作的生态系统,支持从真实工作负载收集追踪,到模拟、回放和硬件在环验证的全生命周期。本文详述其在 PyTorch、vLLM、ASTRA-sim 等框架的集成,以及开源追踪库的发布,助力学术界和产业界更高效地参与前沿 AI 平台设计。

MLC AI基准测试 Chakra
146

MLCommons 发布 MLPerf Mobile v6.0,新增设备端 LLM 基准

MLCommons 正式推出 MLPerf Mobile v6.0 版本,新增针对 Android 设备运行大语言模型的生成式 AI 基准测试。该版本引入 Llama 3.2 1B、3B 及 Llama 3.1 8B Instruct 模型,基于 TinyMMLU 和 IFEval 数据集评估性能与准确性。同时支持 CPU 推理,并新增对高通骁龙 8 Elite Gen 5 NPU 的加速支持。此外,还扩展了对联发科天玑 9500 系列等芯片的支持。MLPerf Mobile 应用已上架 Google Play、App Store,并开放源代码。

MLC MLPerf Mobile 设备端 LLM
140

MLPerf Training v6.0 基准结果发布:聚焦 MoE 稀疏计算

MLCommons 正式发布 MLPerf Training v6.0 基准测试结果。本次更新新增 DeepSeek V3 与 GPT-OSS 20B 两项基准,突出 Mixture-of-Experts(MoE)稀疏计算架构的行业趋势。测试结果显示提交系统数量达 95 个,涵盖 13 种加速器和 19 种主机处理器,创下多样性纪录。24 家机构参与,包括多家首次提交者,云端训练系统数量较上轮翻倍。基准强调准确率门槛下的性能对比,为 AI 训练生态提供关键洞察。

MLC MLPerf 基准测试
123

GLM4-MoE 生产优化:SGLang 实现 TTFT 加速 65%

Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略,涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈,集成 Shared Experts Fusion 与 Suffix Decoding 技术,在代理编码工作负载下实现 TTFT 最高降低 65%、TPOT 提升 22%。所有结果均在 H200 集群 TP8 与 FP8 配置下验证,为高吞吐低延迟生产环境提供了可靠蓝图。

LMSYS SGLang GLM4-MoE
130

INT4 QAT RL 实战:单 H200 部署 1TB 模型

SGLang RL 团队受 Kimi K2 启发,成功落地 INT4 Quantization-Aware Training (QAT) 端到端方案。通过训练阶段的 fake quantization 与推理阶段 W4A16 真实量化结合,实现与 BF16 全精度相当的训练-推理一致性与稳定性。INT4 极致压缩让约 1TB 规模模型单节点 rollout 成为可能,显著提升效率并消除跨节点通信瓶颈。本文详解 slime 框架下的完整技术 pipeline,包括 Megatron-LM fake quantization 改造、STE 反向传播、权重转换及 SGLang W4A16 推理,附带消融实验与多模型验证结果,为社区提供高性能低成本开源参考。

LMSYS INT4 QAT SGLang RL
80

不留任何Token:Miles框架TITO原则深度解析

在智能体强化学习中,rollout并非单次生成,而是多轮模型调用、工具输出与恢复生成的链式过程。Token-In-Token-Out(TITO)原则旨在消除训练与推理间的关键不匹配,确保训练器评估的token序列与推理引擎实际产生和消费的序列完全一致。本文详细定义TITO原理,阐述其对训练效率与策略正确性的重要性,并分析三种常见破坏场景,最后介绍Miles框架如何通过推理会话服务器、追加-only机制与固定模板实现TITO。

LMSYS 强化学习 Token处理
227