MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统

MegaTTS 3是什么?

MegaTTS 3 是字节跳动推出的零样本文本到语音合成系统。它采用轻量级的扩散模型,将语音分解为内容、音色、韵律等属性进行建模,支持超高音质的语音克隆、双语合成、口音强度控制等功能,可应用于语音合成、语音编辑等场景。

MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统.jpg

核心架构与技术

  • 轻量级且高效的扩散模型:MegaTTS 3 的核心是 TTS Diffusion Transformer,其参数量仅为 0.45B,在保证高效的同时,能够生成高质量的语音。

  • 语音分解与建模:将语音分解为内容、音色、韵律等不同属性,并为每个属性设计了合适的模块进行建模。例如,使用全局向量来建模音色,因为音色是随时间缓慢变化的全局属性;利用基于 VQGAN 的声学模型生成语谱图,以及基于潜在码的语言模型来拟合韵律的分布,因为韵律在句子中快速变化,语言模型能够捕捉局部和长距离的依赖关系。

  • 声码器:采用基于 GAN 的声码器来适当构建相位,而不需要语言模型对相位进行建模。

MegaTTS 3功能特点

  • 超高音质的语音克隆:能够生成与目标说话人高度相似的语音。

  • 双语支持:支持中文和英文,以及中英混合的语音合成。

  • 可控性:支持口音强度控制,并且未来还将支持更精细的发音/时长调整。

  • 零样本语音合成:能够在没有目标说话人特定语音数据的情况下,生成其语音。

MegaTTS 3:字节跳动推出的一款零样本文本到语音合成系统.webp

MegaTTS 3应用场景

  • 语音合成:可用于各种需要将文本转换为语音的场景,如有声读物、语音播报等。

  • 语音编辑:能够对语音进行编辑和修改,以满足不同的需求。

  • 跨语言语音合成:支持跨语言的语音合成任务。

MegaTTS 3使用教程

命令行工具提供了命令行界面,用户可以通过指定输入的语音提示文件和文本内容,生成合成语音。例如:

标准语音合成命令:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "另一边的桌上,一位读书人嗤之以鼻道,'佛子三藏,神子燕小鱼是什么样的人物,李家的那个李子夜如何与他们相提并论?'" --output_dir ./gen

带有口音控制的语音合成命令:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这是一条有口音的音频。' --output_dir ./gen --p_w 1.0 --t_w 3.0

Web UI:还支持通过 Web UI 进行语音合成。

MegaTTS 3安装

环境要求:需要 Python 3.9 环境。

模型下载:预训练模型的检查点可以从 Google Drive 或 Hugging Face 下载,并放置在指定目录。

安装步骤:

# 创建 Python 3.9 的 conda 环境
conda create -n megatts3-env python=3.9
conda activate megatts3-env
# 安装依赖
pip install -r requirements.txt

github项目:https://github.com/bytedance/MegaTTS3

收藏
最新工具
Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM
森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能,你可以沉...