Kyutai TTS:专为实时场景设计的开源文本转语音工具

Kyutai TTS 是法国 Kyutai Labs 开发的开源文本转语音模型,专为实时应用设计。它有 1.6B 参数,英语和法语的字错误率分别是 2.82% 和 3.29%,语音生成延迟仅 220 毫秒,适合直播和语音助手等场景。其流式处理和延迟流建模技术让文本和语音生成更高效。

Kyutai TTS:专为实时场景设计的开源文本转语音工具

技术特点:

流式处理与低延迟:Kyutai TTS 可在接收到第一个文本标记后立即生成音频,延迟仅 220 毫秒。在 NVIDIA L40S GPU 上处理 32 个请求时,延迟约 350 毫秒。

高精度语音输出:英语和法语的单词错误率分别为 2.82% 和 3.29%,说话者相似度分别达 77.1% 和 78.7%,语音自然且接近原始样本。

长篇内容生成:能处理长篇文章,突破了传统 TTS 模型的 30 秒限制。

语音克隆:用户提供 10 秒音频样本,模型可匹配说话者的音色、语调等。为确保合法性,Kyutai TTS 基于公开数据集提供声音库,不直接发布语音嵌入模型。

单词时间戳:生成的音频中每个单词都有精确时间戳,便于实时字幕生成或交互式应用。

架构与训练:

  • 延迟流建模(DSM):模型在接收文本时可实时生成语音,支持流式文本输入,能同时处理多个请求。

  • 训练数据与硬件:使用 250 万小时公开音频数据训练,由 Whisper 生成转录文本,训练过程使用了 32 个 H100 GPU。

应用场景:

  • 实时交互:适用于虚拟助手、在线教育平台和实时字幕生成。

  • 内容创作:可用于生成播客、有声书等长篇内容。

  • 辅助工具:为视障人士提供高质量的文本朗读服务。

同其它TTS对比:

与市场上其他 TTS 模型相比,Kyutai TTS 在单词错误率和说话者相似度方面表现出色,尤其在实时交互场景中表现优异。

Kyutai TTS 以 CC-BY-4.0 许可证开源,源码和权重可在 GitHub 和 Hugging Face 上找到。开发者可通过捐赠声音数据帮助模型扩充语音风格和语言支持。

项目地址:https://kyutai.org/next/tts

收藏
#文本转AI语音
最新工具
TryShortCut AI
TryShortCut AI

一款Excel助手,用户不需要编写复杂公式或VBA代码就能完成E...

TabBoost
TabBoost

一款基于Chrome的浏览器插件,设计上参考了 Arc 浏览器的...

Goblin Tools
Goblin Tools

一免费的专为神经多样性人群设计AI 应用,能帮用户分解任务、检查...

绘想
绘想

百度推出的AI视频创作平台,使用了百度自研的MuseSteame...

LeisiDianying
LeisiDianying

一个推荐类似电影和电视节目的平台。输入喜欢的影视作品名称,它会根...

Spring AI Alibaba
Spring AI Alibaba

一个基于Graph的多智能体AI框架,用于开发聊天机器人、工作流...

SuperDesign
SuperDesign

一款开源AI设计Agent工具,可以直接在 IDE中通过自然语言...

Veozon
Veozon

一款电影级的 Veo3 AI视频制作工具,支持文生视频、图生视频...

Short AI
Short AI

一款AI短视频生成工具,能帮用户快速制作 AI 故事、Reddi...

荣耀萤火开放素材库
荣耀萤火开放素材库

《王者荣耀》官方素材平台,提供4K超清的图片、视频素材,涵盖英雄...