SGLang 相关AI资讯 | 赢政天下 AI

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚Open

LMSYS SGLang NVIDIA GTC 开源AI

2026年4月2日 509

测评

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 El

LMSYS SGLang Elastic EP MoE

2026年3月27日 548

测评

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super，这是 Nemotron 3 系列领先的开源模型，专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构，每前向传播仅

LMSYS SGLang Nemotron 3 Super 多代理系统

2026年3月12日 873

测评

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在I

LMSYS SGLang NVIDIA GB300 推理性能

2026年3月5日 605

测评

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggreg

LMSYS GB300 NVL72 DeepSeek SGLang

2026年2月21日 798

测评

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67

LMSYS Qwen3 Qwen3-VL AMD MI300X

2026年2月13日 1,160

测评

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+

MLC AAAI 2025 Chatbot Arena Elo Rating

2026年2月10日 3,511

测评

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果，这是针对自动化机器学习（AutoML）的最新标准。LMSYS Org 凭借创新方法脱颖而出，使用 Chatbot Arena 的 Elo Rating 作为核心质

MLC MLPerf AutoML LMSYS

2026年2月10日 744

测评

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎，在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化，支持 SGLang 等框架，显著提升了吞吐量和延迟性能。测试数据显示，在 L

MLC DeepSeek 推理引擎 MLCommons基准

2026年2月10日 780

测评

ISO-AUS：MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试，这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制，涵盖从边缘设备到云端服务器的多种场景。测试结果显示，领先模

MLC ISO-AUS AI基准 LMSYS

2026年2月10日 782

测评

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理

LMSYS AI技术混合推理 KTransformers

2026年2月4日 1,070

测评

SGLang Pipeline Parallelism：百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism（PP）实现，专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dyna

LMSYS SGLang Pipeline Parallelism 超长上下文

2026年2月4日 800

测评

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型（LLM）规模不断扩大，对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式，其中 FP4（4 位浮点）量化备受关注，例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5

LMSYS AMD GPU FP4量化 Petit

2026年2月4日 811

测评

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunke

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 806

测评

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术

LMSYS SGLang DeepSeek GB200

2026年2月4日 870

测评

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点T

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 821

测评

PD-Multiplexing：GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果，该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext，实现同一进程内GPU资源的轻量级细粒度分区，支持prefill和

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 727

测评

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日（Day 0）支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus，通过持续训练引入 DeepSeek Sparse Attention (DSA)，一种由 Lightn

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 783

测评

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,937

测评

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 857

SGLang 相关资讯