IndexTTS

IndexTTS

B站基于XTTS和Tortoise开发的文本转语音模型,具备工业级零样本TTS能力。针对中文场景创新采用字符-拼音混合建模,可快速修正发音错误。

#Ai工具箱 #Ai开源项目
收藏

IndexTTS 简介

IndexTTS是B站基于XTTS和Tortoise开发的文本转语音模型,具备工业级零样本TTS能力。针对中文场景创新采用字符-拼音混合建模,可快速修正发音错误,结合Conformer条件编码器与BigVGAN2解码器,提升了训练稳定性、音色还原度和输出音质。

IndexTTS:B站基于XTTS和Tortoise开发的文本转语音模型

核心功能:

✅支持中英双语

✅中文拼音纠错:输入拼音调整多音字发音(如"长"可指定"zhǎng"或"cháng")

✅标点停顿控制:通过标点符号控制语音停顿节奏

✅音质增强:Conformer编码器提取音色特征,BigVGAN2解码器提升波形生成质量

✅情感分离控制:独立调节情绪表达与说话人音色

✅精准时长控制:支持标记数设定或自回归生成两种模式

技术亮点:

✅中文混合建模:输入层兼容纯文本/拼音混合输入,自动预测未标注拼音,降低词错误率

✅Conformer编码器:融合卷积与自注意力机制,强化音色韵律建模

✅BigVGAN2解码器:基于GAN架构的波形生成器,兼顾计算效率与音质表现

主要优势:

✓ 多音字精准发音

✓ 自然停顿节奏

✓ 高保真音质

✓ 快速语音克隆

✓ 中英双语支持

典型应用:

IndexTTS合成语音情绪自然饱满,贴近真人, 广泛适用于智能助手 | 有声读物 | 视频配音 | 智能客服 | 教育工具等场景。

性能表现

✓自然度和一致性:在自然度、内容一致性和零样本语音克隆上,IndexTTS 比 XTTS 等现有模型有明显改进。

✓训练和推理效率:训练过程较简单,推理速度更快,性能超过 Fish-Speech、CosyVoice2、FireRedTTS、F5-TTS 等主流开源 TTS 系统。

✓代码本利用率:对比矢量量化(VQ)和有限舒尔量化(FSQ),解决了代码本塌陷问题,代码本利用率接近 100%。

部署方式:

  1. 克隆GitHub代码库

  2. 安装PyTorch等依赖

  3. 准备并预处理音频数据

  4. 训练或加载预训练模型

  5. 调参生成音频文件

项目地址:https://github.com/index-tts/index-tts

到头啦!

与IndexTTS 相关工具