LMSYS 相关AI资讯 | 赢政天下 AI

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型（LLM）规模不断扩大，对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式，其中 FP4（4 位浮点）量化备受关注，例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5

2026年2月4日 811

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunke

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 806

测评

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术

LMSYS SGLang DeepSeek GB200

2026年2月4日 870

测评

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点T

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 822

测评

PD-Multiplexing：GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果，该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext，实现同一进程内GPU资源的轻量级细粒度分区，支持prefill和

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 727

测评

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日（Day 0）支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus，通过持续训练引入 DeepSeek Sparse Attention (DSA)，一种由 Lightn

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 783

测评

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,937

测评

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 857

测评

SGLang-Jax：原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎，完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构，利用Jax编译模型前向传播，实现快速原生TPU推理，同时支持连续批处理、前缀缓存、张量并行、专家并行、

LMSYS SGLang-Jax TPU推理 Jax优化

2026年2月4日 719

测评

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后，我们与NVIDIA紧密合作，在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型，支持SGLang框架。性能亮眼：GPT-OSS 20B达到约70 tokens/s，GPT-O

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 929

测评

无免费午餐：MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 770

测评

SGLang Diffusion：加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成，支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、

LMSYS SGLang Diffusion 扩散模型图像生成

2026年2月4日 757

测评

🚀 AutoRound 携手 SGLang：高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作，支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术，实现 INT2-INT8 等低比特量化，在 INT2

LMSYS AutoRound SGLang 模型量化

2026年2月4日 817

测评

Miles发布：点燃大规模MoE训练的企业级RL框架

千里之行，始于足下。今天，RadixArk团队发布了Miles，一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建，后者已悄然驱动众多后训练管道和大模型MoE训练（如GLM-4.6）。sl

LMSYS Miles 强化学习 MoE训练

2026年2月4日 731

测评

LMSYS博士奖学金计划正式启动

LMSYS欣喜宣布博士奖学金计划正式启动！该计划专为美国全日制博士生设计，针对那些在开源AI基础设施社区做出重大贡献的学生。获奖者将获得高达50,000美元资助，用于未来两年的学费和相关费用。申请期为2025年11月23日至12月7日，评估

LMSYS 博士奖学金开源AI AI基础设施

2026年2月4日 619

测评

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升

LMSYS FP8 RL训练 MoE模型

2026年2月4日 677

测评

从研究到生产：EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码（Speculative Decoding）能显著提升LLM推理速度，但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案，仅在目标模型内部层添加轻量级草稿头（仅占2-5%模型大小），简化训练并实现2x-

LMSYS EAGLE-3 Speculative Decoding Vertex AI

2026年2月4日 665

测评

SGLang推理加速：原生集成NVIDIA Model Optimizer，实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化！这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程，无需多步工具切换。通过SGLang中的ModelOpt API，只需三步即可完成量化（支持NVFP

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 751

测评

让张量翱翔：R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork（Tensor Remote Fork），一种创新的权重加载方法，利用高效的跨节点设备间互连，从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势：显著加速权重加载（如 Deepsee

LMSYS SGLang Tensor R-Fork GPU-Direct RDMA

2026年2月4日 625

测评

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 730

LMSYS 相关资讯