SGLang-Omni 部署 MOSS-TTS Local Transformer v1.5:原生 48kHz 流式语音服务

SGLang-Omni 部署 MOSS-TTS Local Transformer v1.5:原生 48kHz 流式语音服务

今日,MOSI、OpenMOSS 团队与 SGLang-Omni 团队共同宣布:MOSS-TTS-Local-Transformer-v1.5 已在 SGLang-Omni 上实现端到端服务。该模型是一款开源 TTS 系统,支持 48 kHz 立体声、零样本语音克隆、长文本合成、多语言生成、时长控制以及原生流式输出。

MOSS-TTS-Local-Transformer-v1.5 模型概览

该模型采用 Audio Tokenizer + LLM 自回归路线,包含 Global Transformer 与 Local Transformer 双层生成路径。它支持直接 TTS、续写、显式停顿标记(如 [pause 3.2s]),最长可生成 10 分钟音频,覆盖 31 种主要语言,训练数据量约 400 万小时。

MOSS-TTS Local Transformer v1.5 model architecture

音频边界使用 MOSS-Audio-Tokenizer-v2,其编解码器参数约 2B,在 12.5 Hz 下运行,支持 0.125–4 kbps 可变码率,可重建 48 kHz 立体声音频。生成核心基于 Qwen3-4B,主干逐帧推进序列,每帧由单层本地 Transformer 完成停/继续决策并顺序采样 12 个 RVQ 码本。

公开评测指标

  • Seed-TTS-Eval:WER 5.10%,SIM 69.23%
  • CV3-Eval:WER 7.48%,SIM 61.59%
  • MiniMax Multilingual:WER 6.37%,SIM 75.31%

为何需要多阶段服务运行时

一次请求包含参考音频编码、Qwen3 自回归生成、状态化声码器解码三个异构阶段。标准 LLM 引擎难以兼顾各阶段的批处理与内存特性,因此 SGLang-Omni 采用三阶段流水线:preprocessing → tts_engine → vocoder。

SGLang-Omni 部署与优化

安装与启动命令如下:

docker pull lmsysorg/sglang-omni:dev sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000

核心优化包括参考音频 LRU 缓存、帧级 CUDA Graph、状态化声码器会话及跨阶段显式内存预算。

Reference audio cache:CUDA Graph execution

在 SeedTTS 英文评测(2×H100,并发 16)中,缓存容量从 256 提升至 1024 后,吞吐提升 32.0%,平均延迟降低 24.3%。