测评 HiSparse:层次化内存系统加速稀疏注意力 HiSparse通过层次化内存系统解决稀疏注意力的内存瓶颈问题,显著提高了模型的并发吞吐量。其设计利用GPU和主机内存协同工作,能够在高并发情况下实现接近线性的吞吐量扩展。 LMSYS 稀疏注意力 HiSparse 层次化内存 2026年4月11日 464
测评 SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制 SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightn LMSYS SGLang DeepSeek-V3.2 DSA 2026年2月4日 783