Higgs Audio v3 TTS 登陆 SGLang-Omni:实时可控语音代理新突破

Higgs Audio v3 TTS 登陆 SGLang-Omni:实时可控语音代理新突破

Boson AI 与 SGLang-Omni 团队近日宣布,Higgs Audio v3 TTS 模型已在 SGLang-Omni 框架上实现端到端部署。该模型专为对话式语音代理设计,能以低延迟生成自然且富有表现力的语音,支持 100 种语言且 WER/CER 保持个位数,同时允许开发者通过输入文本流直接控制情感、风格、韵律和音效。

专为真实对话设计的 TTS 模型

Higgs Audio v3 TTS 采用约 4B 参数的自回归解码器,基于 Qwen3-4B 骨干网络构建。它支持流式文本输入,可在句子未完整时就开始合成,并在后续文本到达时保持说话人身份、情感和节奏的一致性。音频通过 Higgs Tokenizer 编码为 8 个离散码本,以 25 fps 速率交错处理,最终输出 24 kHz 波形。

多语言表现优异

在 Boson AI 内部的 Higgs-Multilingual 测试集(覆盖 111 种语言和方言)上,模型在 100 种语言上达到个位数 WER/CER。在公开多语言语音克隆基准上同样表现出色,零样本语音克隆仅需短参考音频即可跨语言使用。

BenchmarkLanguagesWER/CER ↓
Seed-TTS21.11
CV394.41
MiniMax-Multilingual232.74
Higgs-Multilingual1113.61

通过文本流实现精细控制

开发者可直接在输入文本中插入控制标签,实现情感切换、风格调整、速度音高控制以及音效插入,例如:

<|emotion:amusement|><|prosody:expressive_high|>Wait, wait... <|sfx:laughter|>

标签涵盖 20 多种情感、风格、韵律和音效类别,可自由组合。

SGLang-Omni 的多阶段服务架构

Higgs 的生成流程包含多个不同计算模式的阶段,SGLang-Omni 通过阶段抽象、ZMQ 控制平面、CUDA IPC 等技术实现高效调度。AR 阶段使用 OmniScheduler 支持连续批处理与 KV 缓存管理,非 AR 阶段则采用 SimpleScheduler 或 StreamingSimpleScheduler。框架还提供了 CUDA-Graph 友好运行器和流式声码器调度器,使新模型无需重复实现底层优化。