Ai应用
Ai资讯
AI生图
AI生视频
FastbuildAI

首页 > Ai资讯 > Ai产品

MOSS-TTSD：开源双语对话语音合成模型

MOSS-TTSD于2025-08-04发布在Ai产品

MOSS-TTSD是清华大学语音与语言实验室联合腾讯 ai Lab 等机构开发的开源双语对话语音合成模型。它支持中英文，能把两个说话者的对话脚本转换成自然、有表现力的对话语音。该模型基于 Qwen3-1.7B-base 模型继续训练，用离散化语音序列建模，通过 XY-Tokenizer 把语音压缩到 1kbps，同时保留语义和声学信息。

MOSS-TTSD模型支持中英双语，能零样本克隆多个说话人的音色，最长可生成 960 秒的语音，适合 AI 播客、影视配音、长篇访谈等场景。它的模型权重、推理代码和 API 接口都已开源，还支持免费商业使用。

MOSS-TTSD：开源双语对话语音合成模型

主要特点

✅高表现力的对话语音：依托统一的语义 - 声学神经音频编解码器、预训练的大型语言模型，以及数百万小时的 TTS 数据和 40 万小时的合成与真实对话语音构建，能生成有自然对话韵律、表现力强的类人对话语音。

✅双扬声器语音克隆：支持零样本双扬声器语音克隆，能根据对话脚本准确切换说话人，生成对话语音。

✅中英双语支持：可生成中英文两种语言的高表现力语音。

✅长语音生成：借助低比特率编解码器和训练框架优化，专门针对长语音生成做了训练。

✅完全开源且可商用：MOSS-TTSD 及其未来更新会完全开源，且支持免费商业使用。

MOSS-TTSD技术原理

✅模型架构：在 Qwen3-1.7B-base 模型基础上微调，采用离散化语音建模。通过 8 层 RVQ（残差向量量化）把语音信号转换成离散 token 序列，用自回归方式结合 Delay Pattern 生成，最后由解码器还原成语音。

✅核心创新：XY-Tokenizer 有双阶段多任务学习流程。第一阶段同时训练自动语音识别（ASR）和语音重建任务，融合语义和粗粒度声学信息；第二阶段固定编码器和量化器，只训练解码器，加入重建损失和 GAN 损失，增强细节表现。

✅数据规模与预训练：用约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据训练，数据经过严格筛选和标注，还进行了中英文 TTS 预训练。

MOSS-TTSD技术原理

应用场景

✅AI 播客制作：MOSS-TTSD能自动把文本转成多人对话的播客音频，支持零样本人声克隆和长语音生成，能降低制作成本。

✅影视配音与动画：为影视作品、动画生成自然对话语音，支持多语言切换，提高配音效率。

✅长篇访谈与会议记录：把访谈或会议文本转成语音，保留对话的韵律和情感，方便存档和分享。

优势与特点

✅开源且商用友好：MOSS-TTSD模型权重、推理代码和 API 接口都已开源，用户可以免费商业使用。

✅自然度和表现力：声音自然度和表现力达到业界领先水平。

✅支持声音事件控制：比如笑声等非语言声音，让语音更有表现力。

开源地址：https://github.com/OpenMOSS/MOSS-TTSD

MOSS-TTSD官网：https://www.open-moss.com/cn/

收藏

Qwen-Image：阿里云通义千问团队开源的图形海报生成模型

上一篇

Qwen-Image：阿里云通义千问团队开源的图形海报生成模型

马斯克旗下的xAI将推出全新的AI视频生成器：Imagine

下一篇

马斯克旗下的xAI将推出全新的AI视频生成器：Imagine

相关文章

Kyutai TTS：专为实时场景设计的开源文本转语

Kyutai TTS：专为实时场景设计的开源文本转语

2025-07-05

Bland TTS使用教程指南

Bland TTS使用教程指南

2025-06-07

Audiblez：免费开源的多语言TTS有声书制作工

Audiblez：免费开源的多语言TTS有声书制作工

2025-05-12

Muyan-TTS：沐言智语发布的开源、可训练的TT

Muyan-TTS：沐言智语发布的开源、可训练的TT

2025-05-01

Speech-02：MiniMax Audio新发布

Speech-02：MiniMax Audio新发布

2025-04-01

MegaTTS 3：字节跳动推出的一款零样本文本到语

MegaTTS 3：字节跳动推出的一款零样本文本到语

2025-03-29

最新文章

最新工具

GamePix

全球领先的 HTML5 和 WebGL 游戏分发平台。它把各类分...

PixelSquid

Shutterstock推出的专为平面设计师和Photoshop...

Dos.Zone

一个聚合经典DOS游戏的在线游玩平台，游戏种类特别多，有动作、策...

KBHgames

一个老牌免费在线游戏网站，谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI

一个完全免费的AI音视频转录工具，能在浏览器里直接把音频和视频转...

Armor Games

全球知名免费在线游戏平台与独立游戏发行商，ArmorGames...

Social Auto Upload

Social Auto Upload

社交媒体视频一键多平台发布工具，一站式解决抖音、小红书、视频号...

在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器，适合怀旧玩家和游戏开...

HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站，提供各类品牌和...

Funes.world

一个在线博物馆项目，通过众包方式把世界各地的建筑做成3D模型，F...

人生若只如初见

用户登录