Dia：活人感的一小步，AI语音的一大步-赢政天下

为什么在AI语音工具遍地开花的当下，还有人在开发TTS（文本转语音）工具？答案是：塑料感发声，智障感停顿……现有的AI语音工具不好用啊！

两人初创公司 Nari Labs曾经尝试了市面上所有的 TTS API，“但没有一款听起来像真实的人类对话”，所以两位酷哥基于“零资金”构建了Dia，后者以其超逼真的对话生成能力瞬间爆红，仅上线两天就收获了6.5K+ Star。

Dia现已上线appmall.ai，今天就一起来测评一下这款“活人感”AI语音在不同使用场景的实际表现如何。

Dia为何爆火？

一次搞定多人对话：通过使用[S1]、[S2]、[S3]等标签区分角色，一键生成多角色对话，节奏自然连贯。
活人感满分：通过设置标注，如笑声(laugh)、叹气(sigh）、咳嗽(cough)等，AI自动给出自然反应，笑声再也不是干瘪的“哈哈”。
内容语义强识别：如果人能从一段对话的内容中识别出某个说话的人是女性（比如“我的女儿还跟我说：‘妈妈，我们晚上一起做煎饼吧’，可是我已经累死了”），Dia也能，并会自动配上女性的声音。
快速流畅生成：细节自然，情绪变化真实，几秒到几分钟即可生成，无需长久等待。

Dia如何使用？

图片[1]-Dia：活人感的一小步，AI语音的一大步-赢政天下

Dia现已上线appmall.ai，价格低至2.3元/小时。Dia页面的简洁程度倒是参考了市面上主流TTS工具，没有任何多余的功能。

左上角输入文字prompt（必填，目前仅支持英文），下方可以上传声音参考音频（选填），如果不调节其他参数，直接按【Generate Audio】，音频就会在右侧生成。

（1）轻量日常使用

我们先对Dia的基础性能进行测试，先虚拟一段发生在火车站的对话场景，火车快开了，A催促B快上车，B抱怨行李太重，A开玩笑说B拎着行李的样子像企鹅，并提出帮忙，同时嵌入笑声(laugh)、叹气(sigh）、咳嗽(cough)等情绪，测试自然度。

以下为提示词：

[S1] Come on, the train’s about to leave! Can you hurry up?

[S2] (sigh) My shoes are killing me, and this suitcase is heavier than a rock. I can barely move.

[S1] (laugh) You do look like a waddling penguin with that bag. Here, let me take it.

[S2] (cough) Thanks. Next time, remind me not to pack half my closet.

图片[2]-Dia：活人感的一小步，AI语音的一大步-赢政天下

20250610160234150-音频3.wav

wav文件

1.3M

从实测来看，第一句催促上车，说出了明显的急迫感。在抱怨鞋子和行李时，AI的语气、停顿和重音也非常自然，笑声、咳嗽声的展现方式也并不突兀，活人感诚不我欺。

（2）克隆生成

看下上传参考音频的生成效果，实测下来，这个场景的整体体验一般。首先，Dia支持的格式比较技术化，连mp3都不支持。

图片[3]-Dia：活人感的一小步，AI语音的一大步-赢政天下

其次，在默认参数设置下，尝试了几组不同的提示词、不同长度的参考音频，结果发现，生成的最终文件中总是会缺失前两句，应该是系统自带bug，使用时可以铺垫2句无用的文字在前面。

图片[4]-Dia：活人感的一小步，AI语音的一大步-赢政天下

只剩下克隆的音色还原度、语音自然度还保持着一贯的水准。

20250702132220596-2.wav

wav文件

849.0K

图片[5]-Dia：活人感的一小步，AI语音的一大步-赢政天下

（3）智能语义理解

通常来讲，对话人物的性别是随机的，因为无法人工设置。但是如果我们在语义中嵌入对人物性别的暗示（而非），Dia是否能准确理解，并且智能生成呢？、

我们准备了以下文字提示词，大义是A对B说“我丈夫”如何如何，B则说“我女儿跟我说：妈妈我们做煎饼吧”。

[S1] My husband’s picking up the kids later, I finally get to see that movie after work.

[S2] (sigh) I envy you, my daughter kept saying to me, “Mommy, let’s make pancakes” at 7 p.m. today. But I will be exhausted by then.

20250702132519854-3.wav

wav文件

801.1K

经过多次测试，Dia都准确的识别出说话人应该是女性，并配上了女性的声音。

图片[6]-Dia：活人感的一小步，AI语音的一大步-赢政天下

（4）进阶参数设置

如果对TTS有精细化的要求，可以进一步配置一些优化参数。

图片[7]-Dia：活人感的一小步，AI语音的一大步-赢政天下

Max New Tokens (Audio Length)：控制生成音频的最大长度，token 数越多，音频越长，决定输出音频时长上限。
CFG Scale (Guidance Strength)：即分类器自由引导尺度，值越高，生成内容越贴合文本提示，平衡文本引导与模型自由生成。
Temperature (Randomness)：控制输出随机性，值低输出更确定、平稳；值高更随机、多样，影响音频风格变化。
Top P (Nucleus Sampling)：基于概率累积选 token，保留累计概率达 P 的可能 token，让生成既多样又合理，过滤低概率、不合理词汇。
CFG Filter Top K：对用于 CFG 引导的 token 做 Top K 过滤，影响文本到音频映射的候选范围。
Speed Factor：调整生成音频速度，0 是原始速度，大于 1 加快，小于 1 减慢，改变音频播放节奏。