AMD GPU 上 FP4 混合精度推理优化
随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5
随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5
本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunke
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术
部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点T
本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和
SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightn
NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内
SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性
SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、
NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-O
SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在
SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、
Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2
千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。sl
LMSYS欣喜宣布博士奖学金计划正式启动!该计划专为美国全日制博士生设计,针对那些在开源AI基础设施社区做出重大贡献的学生。获奖者将获得高达50,000美元资助,用于未来两年的学费和相关费用。申请期为2025年11月23日至12月7日,评估
我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升
推测解码(Speculative Decoding)能显著提升LLM推理速度,但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案,仅在目标模型内部层添加轻量级草稿头(仅占2-5%模型大小),简化训练并实现2x-
SGLang最新功能原生支持NVIDIA Model Optimizer量化!这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程,无需多步工具切换。通过SGLang中的ModelOpt API,只需三步即可完成量化(支持NVFP
本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepsee
SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4