LLM推理相关AI资讯 | 赢政天下 AI

Groq LPU刷新LLM推理速度纪录：每秒500 Token远超GPU

AI芯片初创公司Groq近日公布LPU（语言处理单元）在LLM推理中实现每秒500 Token的新纪录，远超传统GPU性能。公司演示视频在X平台病毒式传播，开发者赞叹其低延迟潜力，或将重塑AI推理市场格局。

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作，支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术，实现 INT2-INT8 等低比特量化，在 INT2

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴，推出SpecBundle（Phase 1），这是基于大规模数据集训练的生产级EAGLE3模型检查点集合，旨在提升推测解码的可用性和实际性能，第一阶