SGLang-Omni 部署 MOSS-TTS Local Transformer v1.5：原生 48kHz 流式语音服务

2026年6月29日 4 约3分钟 LMSYS

LMSYS TTS模型语音合成 SGLang-Omni 开源部署多语言TTS

SGLang-Omni 部署 MOSS-TTS Local Transformer v1.5：原生 48kHz 流式语音服务

今日，MOSI、OpenMOSS 团队与 SGLang-Omni 团队共同宣布：MOSS-TTS-Local-Transformer-v1.5 已在 SGLang-Omni 上实现端到端服务。该模型是一款开源 TTS 系统，支持 48 kHz 立体声、零样本语音克隆、长文本合成、多语言生成、时长控制以及原生流式输出。

MOSS-TTS-Local-Transformer-v1.5 模型概览

该模型采用 Audio Tokenizer + LLM 自回归路线，包含 Global Transformer 与 Local Transformer 双层生成路径。它支持直接 TTS、续写、显式停顿标记（如 [pause 3.2s]），最长可生成 10 分钟音频，覆盖 31 种主要语言，训练数据量约 400 万小时。

MOSS-TTS Local Transformer v1.5 model architecture

音频边界使用 MOSS-Audio-Tokenizer-v2，其编解码器参数约 2B，在 12.5 Hz 下运行，支持 0.125–4 kbps 可变码率，可重建 48 kHz 立体声音频。生成核心基于 Qwen3-4B，主干逐帧推进序列，每帧由单层本地 Transformer 完成停/继续决策并顺序采样 12 个 RVQ 码本。

公开评测指标

Seed-TTS-Eval：WER 5.10%，SIM 69.23%
CV3-Eval：WER 7.48%，SIM 61.59%
MiniMax Multilingual：WER 6.37%，SIM 75.31%

为何需要多阶段服务运行时

一次请求包含参考音频编码、Qwen3 自回归生成、状态化声码器解码三个异构阶段。标准 LLM 引擎难以兼顾各阶段的批处理与内存特性，因此 SGLang-Omni 采用三阶段流水线：preprocessing → tts_engine → vocoder。

SGLang-Omni 部署与优化

安装与启动命令如下：

docker pull lmsysorg/sglang-omni:dev
sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000

核心优化包括参考音频 LRU 缓存、帧级 CUDA Graph、状态化声码器会话及跨阶段显式内存预算。

在 SeedTTS 英文评测（2×H100，并发 16）中，缓存容量从 256 提升至 1024 后，吞吐提升 32.0%，平均延迟降低 24.3%。

SGLang-Omni 部署 MOSS-TTS Local Transformer v1.5：原生 48kHz 流式语音服务

MOSS-TTS-Local-Transformer-v1.5 模型概览

公开评测指标

为何需要多阶段服务运行时

SGLang-Omni 部署与优化

相关文章