ElevenLabs推出新音乐模型:歌曲中途可切换风格

ElevenLabs推出新音乐模型:歌曲中途可切换风格

AI语音克隆与合成领域的领军公司ElevenLabs,近日在其不断扩展的音乐生成产品线上投下了一枚重磅炸弹。该公司宣布推出新一代音乐生成模型,其中最引人瞩目的功能是:用户可以在歌曲播放过程中,选中任意段落,然后要求AI将该段落的音乐风格切换为另一种完全不同的类型,而不会影响歌曲其余部分。

从“一次性生成”到“分段编辑”

此前,包括ElevenLabs自家产品在内的多数AI音乐工具,都采用“输入提示词→生成完整曲目”的模式。用户虽然能通过反复调整提示词获得不同结果,但一旦对中间某段不满意,往往只能推倒重来。新模型彻底改变了这一局面。ElevenLabs在官方博客中表示,用户现在可以像编辑文本一样编辑音乐:选中一段,告诉AI“把它变成爵士”,其余部分保持不变。这种非破坏性的局部编辑能力,将AI音乐创作带入了真正的“精细操作”时代。

“我们的目标是让音乐创作变得像说话一样自然。当你即兴哼唱时,可以随时改变风格和情绪——现在AI也能做到这一点。”——ElevenLabs产品负责人对TechCrunch表示。

如何实现?背后的技术猜想

虽然ElevenLabs未公开模型架构细节,但行业分析师推测,这一功能很可能基于“扩散模型”与“Transformer注意力机制”的结合。具体来说,模型可能将整首歌曲的音频表示分解为多个“语义块”,每个块对应歌词、旋律、节奏、音色等独立特征。当用户指定某一段落要改变风格时,模型只调整该段落对应的特征向量,同时保持上下文一致性,确保风格切换不产生突兀感。

此外,ElevenLabs在语音领域积累的“声音克隆”技术可能也发挥了作用。该公司此前能根据短至30秒的音频样本精准克隆特定人声,这种对音频特征的高度控制力,自然可以迁移到音乐生成中,实现对音色、速度、乐器配置的局部调节。

对音乐行业的冲击:双面刃

这一新功能的出现,无疑引发了音乐行业的热议。支持者认为,它将极大降低音乐制作门槛:独立音乐人无需掌握专业混音技能,就能在几分钟内尝试多种风格变体,快速迭代灵感。例如,一首民谣Demo可以瞬间变成电子舞曲版本,作为Remix素材。对于游戏、影视配乐等需要长音频但频繁切换情绪的场景,这更是革命性工具。

然而,批评者警告,这种“一键换风格”正在进一步削弱音乐中的“人”味。如果连风格转换都能被AI完美模拟,那么作曲家的核心价值——情感表达和审美判断——将受到挑战。音乐评论家Mark R.认为:“区分音乐家与电子节拍器的,正是那种不可预测的、充满个人印记的转折。当AI可以平滑地切换乡村和硬核摇滚时,我们还剩下什么?”

编者按:AI音乐的下一个战场——控制权

纵观2024-2025年的AI音乐工具竞争,从Suno到Udio,再到如今的ElevenLabs,各家公司都在努力解决同一个问题:如何给予创作者更多细节控制权。Suno推出了“风格提示词加权”功能,Udio支持在生成后调节音高和节奏,而ElevenLabs的“局部风格切换”无疑是目前最激进的方案。这预示着AI音乐的下一个战场不再是“生成质量”(因为已经很好了),而是“可编辑性”和“创作流程的嵌入度”。

值得一提的是,ElevenLabs这项技术也可能带来版权与伦理难题。如果用户上传一首受版权保护的音乐,然后只更改其中一段的曲风,生成的新段落是否属于合理使用?AI模型在训练时是否吸收了包含他人作品的数据?这些问题尚待回答,但技术已经跑在了法律前面。

无论如何,对于渴望突破创作边界的音乐人来说,ElevenLabs这把“手术刀”已经递到了手中。至于用它来雕刻杰作,还是切割灵魂,终归取决于使用者。

本文编译自TechCrunch