即梦AI - 一站式AI创作平台

Seed-TTS:字节跳动开发的高质量文本到语音TTS模型

最近,TTS领域爆发了。就在chatTTS开源之后,Byte发布了seed-tts,效果很好。

Seed-TTS,是由字节跳动开发的高质量文本到语音(TTS)模型,Seed-TTS模型能够生成与人类语音几乎没有区别的语音。

作为语音生成的基础模型,Seed-TTS 在语音上下文学习方面表现出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。

Seed-TTS在无需训练的情况下,只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音,可以胜任读小说、配音等任务。

Seed-TTS还提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等,还可以通过编辑文本来编辑生成的语音。

Seed-TTS可以修改音频中的内容,同时保持音色、音调和情感不变。

Seed-TTS能进行语速调节,自由控制音频速度。

Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为野外说话者生成高度表现力和多样化的语音。

Seed-TTS.jpeg

此外,我们提出了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTS DiT ,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS DiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。我们证明该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

论文:https://arxiv.org/abs/2406.02430

收藏
最新工具
桌崽AI
桌崽AI

脸谱心智推出的AI桌面陪伴宠物,支持黑神话、原神等20+游戏实时...

Digen AI
Digen AI

一款免费AI视频生成器,支持图片转视频、数字人对口型、动作迁移与...

讯飞智作配音
讯飞智作配音

科大讯飞智作旗下AI配音平台,提供300+音色、30+语种及声音...

疯火轮AI
疯火轮AI

一款面向营销从业者的专家级营销智能体,它把社媒运营、公关传播、内...

Hogee
Hogee

百度智能云推出的一站式AI短剧与漫剧创作平台,通过OpenCla...

KuKuTool
KuKuTool

一个免费的在线去水印视频下载工具,支持130多个平台的视频、图片...

看听AI
看听AI

专注AI漫剧与AI短剧创作的一站式平台,支持剧本导入、角色与场景...

豹纹CLAW
豹纹CLAW

一款多平台内容分发AI工作台,输入主题即可同步生成小红书笔记、公...

Reditor红薯编辑器
Reditor红薯编辑器

一款专为小红书创作者打造的笔记创作工具,原名“红薯编辑器”,它把...

UPlog红薯助手
UPlog红薯助手

小红书图文创作效率工具,支持公众号/Notion/飞书一键导入,...