Linly-Dubbing

一款开源的多语言AI配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

#Ai工具箱 #Ai开源项目

访问Linly-Dubbing

Linly-Dubbing简介

Linly-Dubbing是一款开源的多语言ai 配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

Linly-Dubbing主要特征：

Linly-Dubbing技术细节

语音识别

WhisperX ：OpenAI Whisper语音识别系统的扩展，可以将语音内容转录为文本，与视频帧精确对齐，生成带时间戳的字幕文件，并支持多说话人识别。

FunASR ：一款综合语音识别工具包，提供语音识别、语音活动检测、标点符号恢复等功能，特别针对中文语音进行了优化。

语音合成

集成了Edge TTS、XTTS、CosyVoice等多种先进的语音合成工具。

Edge TTS ：微软提供的高质量文本到语音转换服务，支持多种语言和语音风格，生成自然流畅的语音输出。

XTTS ：Coqui 提供的先进的深度学习文本转语音工具包，专注于语音克隆和多语言语音合成，可以通过短音频片段实现语音克隆并生成逼真的语音输出。

CosyVoice ：阿里巴巴同义实验室开发的多语言语音理解与合成模型，支持多种语言的高质量语音合成和跨语言语音克隆。

字幕翻译

使用OpenAI API和Qwen模型进行多语言字幕翻译。

OpenAI API ：使用OpenAI的GPT-4和GPT-3.5-turbo进行高质量的字幕翻译。这些模型以其自然语言理解和文本生成能力而闻名，适用于对话生成和文本分析。

Qwen ：开源的本地化大规模语言模型，支持多语言翻译，可以经济高效地处理多种语言的文本。

谷歌翻译：集成谷歌翻译作为翻译功能的补充，提供广泛的语言支持和良好的翻译质量。

声音分离

使用 Demucs 和 UVR5 技术将人声与伴奏分开。

|Demucs ：Facebook 研究团队开发的声音分离模型，可以分离混合音频中的不同声源，包括乐器、人声和背景声音。广泛应用于音乐制作和影视后期制作。

UVR5（Ultimate Vocal Remover）：一款高效的人声伴奏分离工具，可以提取接近原始立体声的伴奏，性能优于其他类似工具如RX9、RipX和SpectraLayers 9。

口型同步

借鉴Linly-Talker，我们专注于数字人唇同步技术，结合计算机视觉和语音识别技术，将虚拟角色的唇同步与配音精确匹配，达到高度自然的同步效果。该技术适用于动画人物、虚拟主播、教育视频中的旁白等多种场景。

视频处理

Linly-Dubbing提供添加字幕、插入背景音乐、调节音量和播放速度等功能，用户可以自定义视频内容，使其更具吸引力和个性化。

yt-dlp 的集成： yt-dlp 是一个功能强大的开源命令行工具，设计用于从 YouTube 和其他网站下载视频和音频。该工具具有广泛的参数选项，允许用户根据自己的需要微调下载行为。无论是选择特定格式、分辨率，还是提取音频，yt-dlp 都提供了灵活的解决方案。