SGLang在NVIDIA GTC 2026的高光时刻
SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚Open
SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚Open
为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 El
SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super,这是 Nemotron 3 系列领先的开源模型,专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构,每前向传播仅
SGLang团队与NVIDIA紧密合作,在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后,现扩展至Blackwell Ultra的GB300 NVL72,在I
Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggreg
阿里云Qwen团队与AMD AI框架团队携手,在AMD Instinct™ MI300X系列GPU上基于SGLang框架,对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线,TTFT提升1.67
LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统,通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+
MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质
DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 L
MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模