Kyutai TTS:专为实时场景设计的开源文本转语音工具

Kyutai TTS 是法国 Kyutai Labs 开发的开源文本转语音模型,专为实时应用设计。它有 1.6B 参数,英语和法语的字错误率分别是 2.82% 和 3.29%,语音生成延迟仅 220 毫秒,适合直播和语音助手等场景。其流式处理和延迟流建模技术让文本和语音生成更高效。

Kyutai TTS:专为实时场景设计的开源文本转语音工具

技术特点:

流式处理与低延迟:Kyutai TTS 可在接收到第一个文本标记后立即生成音频,延迟仅 220 毫秒。在 NVIDIA L40S GPU 上处理 32 个请求时,延迟约 350 毫秒。

高精度语音输出:英语和法语的单词错误率分别为 2.82% 和 3.29%,说话者相似度分别达 77.1% 和 78.7%,语音自然且接近原始样本。

长篇内容生成:能处理长篇文章,突破了传统 TTS 模型的 30 秒限制。

语音克隆:用户提供 10 秒音频样本,模型可匹配说话者的音色、语调等。为确保合法性,Kyutai TTS 基于公开数据集提供声音库,不直接发布语音嵌入模型。

单词时间戳:生成的音频中每个单词都有精确时间戳,便于实时字幕生成或交互式应用。

架构与训练:

  • 延迟流建模(DSM):模型在接收文本时可实时生成语音,支持流式文本输入,能同时处理多个请求。

  • 训练数据与硬件:使用 250 万小时公开音频数据训练,由 Whisper 生成转录文本,训练过程使用了 32 个 H100 GPU。

应用场景:

  • 实时交互:适用于虚拟助手、在线教育平台和实时字幕生成。

  • 内容创作:可用于生成播客、有声书等长篇内容。

  • 辅助工具:为视障人士提供高质量的文本朗读服务。

同其它TTS对比:

与市场上其他 TTS 模型相比,Kyutai TTS 在单词错误率和说话者相似度方面表现出色,尤其在实时交互场景中表现优异。

Kyutai TTS 以 CC-BY-4.0 许可证开源,源码和权重可在 GitHub 和 Hugging Face 上找到。开发者可通过捐赠声音数据帮助模型扩充语音风格和语言支持。

项目地址:https://kyutai.org/next/tts

收藏
#文本转AI语音
最新工具
Chess Tempo
Chess Tempo

一个在线国际象棋训练平台。它的战术题库质量很高,后来又增加了多种...

DeeVid AI
DeeVid AI

一个用AI生成视频的工具。它能让没有技术基础的人,通过输入文字、...

Hole.io
Hole.io

一款由 Voodoo 出品的休闲竞技手游,核心玩法是“大洞吃小洞...

Monotype Fonts
Monotype Fonts

蒙纳字库做的企业字体订阅和管理平台,主打一站式解决用字问题。现在...

Flova AI
Flova AI

一个面向短片、广告、动画和社交媒体创作者的AI创作平台。它能把一...

Prosperous Universe
Prosperous Universe

Simulogics开发的一款硬核太空题材经济模拟经营类MMO游...

MediaCrawler
MediaCrawler

一个功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、...

WeaveFox
WeaveFox

实现设计稿高精度转代码,它把 “设计稿还原 + 需求编码 + 部...

Narrow.One
Narrow.One

中世纪背景的多人网上射击游戏,主打弓箭对战和5v5团队竞技。Pe...

Slopeio.org
Slopeio.org

主打《Slope》快节奏跑酷游戏,这游戏是Y8 Studio做的...