MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统

MegaTTS 3是什么?

MegaTTS 3 是字节跳动推出的零样本文本到语音合成系统。它采用轻量级的扩散模型,将语音分解为内容、音色、韵律等属性进行建模,支持超高音质的语音克隆、双语合成、口音强度控制等功能,可应用于语音合成、语音编辑等场景。

MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统.jpg

核心架构与技术

  • 轻量级且高效的扩散模型:MegaTTS 3 的核心是 TTS Diffusion Transformer,其参数量仅为 0.45B,在保证高效的同时,能够生成高质量的语音。

  • 语音分解与建模:将语音分解为内容、音色、韵律等不同属性,并为每个属性设计了合适的模块进行建模。例如,使用全局向量来建模音色,因为音色是随时间缓慢变化的全局属性;利用基于 VQGAN 的声学模型生成语谱图,以及基于潜在码的语言模型来拟合韵律的分布,因为韵律在句子中快速变化,语言模型能够捕捉局部和长距离的依赖关系。

  • 声码器:采用基于 GAN 的声码器来适当构建相位,而不需要语言模型对相位进行建模。

MegaTTS 3功能特点

  • 超高音质的语音克隆:能够生成与目标说话人高度相似的语音。

  • 双语支持:支持中文和英文,以及中英混合的语音合成。

  • 可控性:支持口音强度控制,并且未来还将支持更精细的发音/时长调整。

  • 零样本语音合成:能够在没有目标说话人特定语音数据的情况下,生成其语音。

MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统.webp

MegaTTS 3应用场景

  • 语音合成:可用于各种需要将文本转换为语音的场景,如有声读物、语音播报等。

  • 语音编辑:能够对语音进行编辑和修改,以满足不同的需求。

  • 跨语言语音合成:支持跨语言的语音合成任务。

MegaTTS 3使用教程

命令行工具提供了命令行界面,用户可以通过指定输入的语音提示文件和文本内容,生成合成语音。例如:

标准语音合成命令:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "另一边的桌上,一位读书人嗤之以鼻道,'佛子三藏,神子燕小鱼是什么样的人物,李家的那个李子夜如何与他们相提并论?'" --output_dir ./gen

带有口音控制的语音合成命令:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这是一条有口音的音频。' --output_dir ./gen --p_w 1.0 --t_w 3.0

Web UI:还支持通过 Web UI 进行语音合成。

MegaTTS 3安装

环境要求:需要 Python 3.9 环境。

模型下载:预训练模型的检查点可以从 Google Drive 或 Hugging Face 下载,并放置在指定目录。

安装步骤:

# 创建 Python 3.9 的 conda 环境
conda create -n megatts3-env python=3.9
conda activate megatts3-env
# 安装依赖
pip install -r requirements.txt

github项目:https://github.com/bytedance/MegaTTS3

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...