Groq LPU刷新LLM推理速度纪录:每秒500 Token远超GPU
AI芯片初创公司Groq近日公布LPU(语言处理单元)在LLM推理中实现每秒500 Token的新纪录,远超传统GPU性能。公司演示视频在X平台病毒式传播,开发者赞叹其低延迟潜力,或将重塑AI推理市场格局。
AI芯片初创公司Groq近日公布LPU(语言处理单元)在LLM推理中实现每秒500 Token的新纪录,远超传统GPU性能。公司演示视频在X平台病毒式传播,开发者赞叹其低延迟潜力,或将重塑AI推理市场格局。
Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2
Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para
SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶