测评 SGLang即刻支持MiMo-V2-Flash模型 小米MiMo-V2-Flash模型总参数达309B,激活参数仅15B,专为最大化解码效率而设计,核心采用滑动窗口注意力(SWA)和多层MTP机制。该模型针对真实服务负载优化,支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec LMSYS MiMo-V2-Flash SGLang SWA 2026年2月4日 713