
IndexTTS
IndexTTS 简介
IndexTTS是B站基于XTTS和Tortoise开发的文本转语音模型,具备工业级零样本TTS能力。针对中文场景创新采用字符-拼音混合建模,可快速修正发音错误,结合Conformer条件编码器与BigVGAN2解码器,提升了训练稳定性、音色还原度和输出音质。
核心功能:
✅支持中英双语
✅中文拼音纠错:输入拼音调整多音字发音(如"长"可指定"zhǎng"或"cháng")
✅标点停顿控制:通过标点符号控制语音停顿节奏
✅音质增强:Conformer编码器提取音色特征,BigVGAN2解码器提升波形生成质量
✅情感分离控制:独立调节情绪表达与说话人音色
✅精准时长控制:支持标记数设定或自回归生成两种模式
技术亮点:
✅中文混合建模:输入层兼容纯文本/拼音混合输入,自动预测未标注拼音,降低词错误率
✅Conformer编码器:融合卷积与自注意力机制,强化音色韵律建模
✅BigVGAN2解码器:基于GAN架构的波形生成器,兼顾计算效率与音质表现
主要优势:
✓ 多音字精准发音
✓ 自然停顿节奏
✓ 高保真音质
✓ 快速语音克隆
✓ 中英双语支持
典型应用:
IndexTTS合成语音情绪自然饱满,贴近真人, 广泛适用于智能助手 | 有声读物 | 视频配音 | 智能客服 | 教育工具等场景。
性能表现
✓自然度和一致性:在自然度、内容一致性和零样本语音克隆上,IndexTTS 比 XTTS 等现有模型有明显改进。
✓训练和推理效率:训练过程较简单,推理速度更快,性能超过 Fish-Speech、CosyVoice2、FireRedTTS、F5-TTS 等主流开源 TTS 系统。
✓代码本利用率:对比矢量量化(VQ)和有限舒尔量化(FSQ),解决了代码本塌陷问题,代码本利用率接近 100%。
部署方式:
克隆GitHub代码库
安装PyTorch等依赖
准备并预处理音频数据
训练或加载预训练模型
调参生成音频文件
项目地址:https://github.com/index-tts/index-tts