秒级更新1T参数:大规模分布式RL中的P2P权重传输
本文介绍了一种基于RDMA的点对点权重更新机制,用于SGLang中的RL工作负载,作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型,通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输,
本文介绍了一种基于RDMA的点对点权重更新机制,用于SGLang中的RL工作负载,作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型,通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输,
SGLang 团队宣布,DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈,专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi
HiSparse通过层次化内存系统解决稀疏注意力的内存瓶颈问题,显著提高了模型的并发吞吐量。其设计利用GPU和主机内存协同工作,能够在高并发情况下实现接近线性的吞吐量扩展。
SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚Open
为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 El
强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。
人工智能模型层出不穷,竞争白热化,谁是真正的最强?Arena(前身为LM Arena)已成为前沿大语言模型(LLM)的公认公共排行榜,在短短七个月内从加州大学伯克利分校博士研究项目崛起,深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’
SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super,这是 Nemotron 3 系列领先的开源模型,专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构,每前向传播仅
SGLang团队与NVIDIA紧密合作,在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后,现扩展至Blackwell Ultra的GB300 NVL72,在I
Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggreg
继两月进展更新后,SGLang-Diffusion团队深入剖析了多项高级优化,使其成为可靠的生产级视频生成框架。这些优化聚焦可扩展性、效率与稳定性,针对扩散模型大规模部署的关键瓶颈。核心改进包括:从帧级到Token级SP-Sharding减
阿里云Qwen团队与AMD AI框架团队携手,在AMD Instinct™ MI300X系列GPU上基于SGLang框架,对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线,TTFT提升1.67
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批
MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S
MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模