Llasa:一款基于Llama的文本转语音(TTS),生成效果自然流畅富有感情

Llasa是什么?

Llasa是由香港科技大学音频实验室开发的开源文本转语音(TTS)系统,基于 LLaMA 架构,结合了 XCodec2 语音标记技术,能够生成高质量、自然流畅、富有感情的语音,提高了语音合成的自然度、韵律准确性和情感表达能力,生成效果比较自然。

Llasa.webp

Llasa核心功能

  • 高质量语音合成:能生成自然流畅的语音,支持中英文双语,语音自然度和情感表达出色。

  • 情感表达:可合成带有快乐、悲伤、愤怒等情感色彩的语音,让语音更自然生动。

  • 语音克隆:只需15秒声音样本,就能高度准确地克隆声音,保留原声音色和情感特征。

  • 零样本学习:对没见过的说话者或情感也能进行语音合成,无需额外微调。

  • 长文本支持:能处理长文本输入并生成连贯语音输出,适用于有声读物、语音播报等场景。

Llasa技术原理

  • 架构:基于单层向量量化(VQ)编解码器和单个Transformer架构,与标准LLaMA模型完全对齐。

  • 语音分词器:用XCodec2将语音波形编码为离散标记,保留语义和声学信息。

  • 训练与推理扩展:增加模型规模(如1B、3B、8B参数)或训练数据量(如25万小时语音数据),提升语音自然度和情感表达能力。

  • 自回归生成:逐个生成语音标记,保证语音在语义和韵律上与输入文本一致。

Llasa模型版本

Llasa有1B、3B和8B参数版本,支持中英文,可满足不同硬件资源和应用场景需求。

Llasa应用场景

适用于虚拟现实、游戏、无障碍服务、客户服务以及教育等领域以及适合做有声读物或语音助手。

  • 智能语音助手:Llasa TTS能让智能设备或软件有自然流畅的语音交互功能,使用户体验更好。

  • 有声读物与在线教育领域:它能把文本内容转化成生动语音,用于有声读物制作和在线教育,方便学生通过听来学习。

  • 语音播报与客服:Llasa TTS可用于新闻播报、交通信息提示和客服系统,让信息传递更高效。

  • 游戏与娱乐:它能为角色或虚拟形象配上个性化语音,增强沉浸感。

  • 广告与市场营销:企业能用Llasa TTS生成广告语音,提升品牌宣传效果。

  • 语音克隆与内容创作:Llasa TTS支持零样本语音克隆,只要15秒左右音频样本就能克隆特定人声的音色和情感,可用于广告配音视频制作或个性化语音内容创作 。

GitHub仓库:https://github.com/zhenye234/LLaSA_training

HuggingFace模型库:https://huggingface.co/collections/HKUSTAudio/llasa

在线体验Demo:https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts

收藏
#文本转AI语音
最新工具
Dos.Zone
Dos.Zone

一个聚合经典DOS游戏的在线游玩平台,游戏种类特别多,有动作、策...

KBHgames
KBHgames

一个老牌免费在线游戏网站,谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI
SoundWise AI

一个完全免费的AI音视频转录工具,能在浏览器里直接把音频和视频转...

Armor Games
Armor Games

全球知名免费在线游戏平台与独立游戏发行商​,ArmorGames...

Social Auto Upload
Social Auto Upload

社交媒体视频一键多平台发布工具​,一站式解决抖音、小红书、视频号...

在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...

PrettyScale
PrettyScale

一个在线面部分析及颜值打分网站,用户通过上传照片或直接用摄像头参...

圆周旅迹
圆周旅迹

一款旅游出行AI智能规划APP,它可以直接从小红书这些平台导入别...