为什么在AI语音工具遍地开花的当下,还有人在开发TTS(文本转语音)工具?答案是:塑料感发声,智障感停顿……现有的AI语音工具不好用啊!
两人初创公司 Nari Labs曾经尝试了市面上所有的 TTS API,“但没有一款听起来像真实的人类对话”,所以两位酷哥基于“零资金”构建了Dia,后者以其超逼真的对话生成能力瞬间爆红,仅上线两天就收获了6.5K+ Star。
Dia现已上线appmall.ai,今天就一起来测评一下这款“活人感”AI语音在不同使用场景的实际表现如何。
Dia为何爆火?
- 一次搞定多人对话:通过使用[S1]、[S2]、[S3]等标签区分角色,一键生成多角色对话,节奏自然连贯。
- 活人感满分:通过设置标注,如笑声(laugh)、叹气(sigh)、咳嗽(cough)等,AI自动给出自然反应,笑声再也不是干瘪的“哈哈”。
- 内容语义强识别:如果人能从一段对话的内容中识别出某个说话的人是女性(比如“我的女儿还跟我说:‘妈妈,我们晚上一起做煎饼吧’,可是我已经累死了”),Dia也能,并会自动配上女性的声音。
- 快速流畅生成:细节自然,情绪变化真实,几秒到几分钟即可生成,无需长久等待。
Dia如何使用?
Dia现已上线appmall.ai,价格低至2.3元/小时。Dia页面的简洁程度倒是参考了市面上主流TTS工具,没有任何多余的功能。
左上角输入文字prompt(必填,目前仅支持英文),下方可以上传声音参考音频(选填),如果不调节其他参数,直接按【Generate Audio】,音频就会在右侧生成。
(1)轻量日常使用
我们先对Dia的基础性能进行测试,先虚拟一段发生在火车站的对话场景,火车快开了,A催促B快上车,B抱怨行李太重,A开玩笑说B拎着行李的样子像企鹅,并提出帮忙,同时嵌入笑声(laugh)、叹气(sigh)、咳嗽(cough)等情绪,测试自然度。
以下为提示词:
[S1] Come on, the train’s about to leave! Can you hurry up?
[S2] (sigh) My shoes are killing me, and this suitcase is heavier than a rock. I can barely move.
[S1] (laugh) You do look like a waddling penguin with that bag. Here, let me take it.
[S2] (cough) Thanks. Next time, remind me not to pack half my closet.
从实测来看,第一句催促上车,说出了明显的急迫感。在抱怨鞋子和行李时,AI的语气、停顿和重音也非常自然,笑声、咳嗽声的展现方式也并不突兀,活人感诚不我欺。
(2)克隆生成
看下上传参考音频的生成效果,实测下来,这个场景的整体体验一般。首先,Dia支持的格式比较技术化,连mp3都不支持。
其次,在默认参数设置下,尝试了几组不同的提示词、不同长度的参考音频,结果发现,生成的最终文件中总是会缺失前两句,应该是系统自带bug,使用时可以铺垫2句无用的文字在前面。
只剩下克隆的音色还原度、语音自然度还保持着一贯的水准。
(3)智能语义理解
通常来讲,对话人物的性别是随机的,因为无法人工设置。但是如果我们在语义中嵌入对人物性别的暗示(而非),Dia是否能准确理解,并且智能生成呢?、
我们准备了以下文字提示词,大义是A对B说“我丈夫”如何如何,B则说“我女儿跟我说:妈妈我们做煎饼吧”。
[S1] My husband’s picking up the kids later, I finally get to see that movie after work.
[S2] (sigh) I envy you, my daughter kept saying to me, “Mommy, let’s make pancakes” at 7 p.m. today. But I will be exhausted by then.
经过多次测试,Dia都准确的识别出说话人应该是女性,并配上了女性的声音。
(4)进阶参数设置
如果对TTS有精细化的要求,可以进一步配置一些优化参数。
- Max New Tokens (Audio Length):控制生成音频的最大长度,token 数越多,音频越长 ,决定输出音频时长上限。
- CFG Scale (Guidance Strength):即分类器自由引导尺度,值越高,生成内容越贴合文本提示,平衡文本引导与模型自由生成。
- Temperature (Randomness):控制输出随机性,值低输出更确定、平稳;值高更随机、多样,影响音频风格变化。
- Top P (Nucleus Sampling):基于概率累积选 token,保留累计概率达 P 的可能 token,让生成既多样又合理,过滤低概率、不合理词汇。
- CFG Filter Top K:对用于 CFG 引导的 token 做 Top K 过滤,影响文本到音频映射的候选范围。
- Speed Factor:调整生成音频速度,0 是原始速度,大于 1 加快,小于 1 减慢,改变音频播放节奏 。
怎么样,是不是很容易上手呢?快来appmall.ai用Dia制作播客、玩转自媒体、模拟小组对话,或者用于工作音频输出场景吧~
暂无评论内容