Seed-TTS:字节跳动开发的高质量文本到语音TTS模型

最近,TTS领域爆发了。就在chatTTS开源之后,Byte发布了seed-tts,效果很好。

Seed-TTS,是由字节跳动开发的高质量文本到语音(TTS)模型,Seed-TTS模型能够生成与人类语音几乎没有区别的语音。

作为语音生成的基础模型,Seed-TTS 在语音上下文学习方面表现出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。

Seed-TTS在无需训练的情况下,只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音,可以胜任读小说、配音等任务。

Seed-TTS还提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等,还可以通过编辑文本来编辑生成的语音。

Seed-TTS可以修改音频中的内容,同时保持音色、音调和情感不变。

Seed-TTS能进行语速调节,自由控制音频速度。

Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为野外说话者生成高度表现力和多样化的语音。

Seed-TTS.jpeg

此外,我们提出了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTS DiT ,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS DiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。我们证明该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

论文:https://arxiv.org/abs/2406.02430

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...