Llasa:一款基于Llama的文本转语音(TTS),生成效果自然流畅富有感情

Llasa是什么?

Llasa是由香港科技大学音频实验室开发的开源文本转语音(TTS)系统,基于 LLaMA 架构,结合了 XCodec2 语音标记技术,能够生成高质量、自然流畅、富有感情的语音,提高了语音合成的自然度、韵律准确性和情感表达能力,生成效果比较自然。

Llasa.webp

Llasa核心功能

  • 高质量语音合成:能生成自然流畅的语音,支持中英文双语,语音自然度和情感表达出色。

  • 情感表达:可合成带有快乐、悲伤、愤怒等情感色彩的语音,让语音更自然生动。

  • 语音克隆:只需15秒声音样本,就能高度准确地克隆声音,保留原声音色和情感特征。

  • 零样本学习:对没见过的说话者或情感也能进行语音合成,无需额外微调。

  • 长文本支持:能处理长文本输入并生成连贯语音输出,适用于有声读物、语音播报等场景。

Llasa技术原理

  • 架构:基于单层向量量化(VQ)编解码器和单个Transformer架构,与标准LLaMA模型完全对齐。

  • 语音分词器:用XCodec2将语音波形编码为离散标记,保留语义和声学信息。

  • 训练与推理扩展:增加模型规模(如1B、3B、8B参数)或训练数据量(如25万小时语音数据),提升语音自然度和情感表达能力。

  • 自回归生成:逐个生成语音标记,保证语音在语义和韵律上与输入文本一致。

Llasa模型版本

Llasa有1B、3B和8B参数版本,支持中英文,可满足不同硬件资源和应用场景需求。

Llasa应用场景

适用于虚拟现实、游戏、无障碍服务、客户服务以及教育等领域以及适合做有声读物或语音助手。

  • 智能语音助手:Llasa TTS能让智能设备或软件有自然流畅的语音交互功能,使用户体验更好。

  • 有声读物与在线教育领域:它能把文本内容转化成生动语音,用于有声读物制作和在线教育,方便学生通过听来学习。

  • 语音播报与客服:Llasa TTS可用于新闻播报、交通信息提示和客服系统,让信息传递更高效。

  • 游戏与娱乐:它能为角色或虚拟形象配上个性化语音,增强沉浸感。

  • 广告与市场营销:企业能用Llasa TTS生成广告语音,提升品牌宣传效果。

  • 语音克隆与内容创作:Llasa TTS支持零样本语音克隆,只要15秒左右音频样本就能克隆特定人声的音色和情感,可用于广告配音视频制作或个性化语音内容创作 。

GitHub仓库:https://github.com/zhenye234/LLaSA_training

HuggingFace模型库:https://huggingface.co/collections/HKUSTAudio/llasa

在线体验Demo:https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts

收藏
#文本转AI语音
最新工具
Cut the Rope
Cut the Rope

(Cut the Rope)《割绳子》是 ZeptoLab 做、...

Nodejam
Nodejam

一款整合多种办公功能的AI办公套件,主要把文本、电子表格和演示文...

image to prompt
image to prompt

一个免费且无需登录的图片转提示词工具,主要功能是免费将上传的图片...

Dayflow
Dayflow

一个开源的macOS原生应用,主要做的是不用手动操作,也能知道你...

一个木函网页版
一个木函网页版

国产效率类App,主打体积小、功能多。有一个木函网页版和小程序,...

Make Manga
Make Manga

一个通过AI把文字故事转化成漫画的平台,主要有项目管理、AI 分...

Wormate.io
Wormate.io

一个多人在线贪吃蛇类io游戏。玩家控制一条彩色的小虫,在地图里吃...

Hyperlink AI
Hyperlink AI

Nexa AI做的一个本地运行的AI文档工具。它靠本地RAG技术...

Build-Your-Own-X
Build-Your-Own-X

收集了很多好的关于从零开始重新创建各种技术的详细、分步指南教程,...

CreatOK AI
CreatOK AI

​专门为TikTok电商打造的一款基于Sora2的AI爆款视频生...