Linly-Dubbing

Linly-Dubbing

一款开源的多语言AI配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

#Ai工具箱 #Ai开源项目
收藏

Linly-Dubbing简介

Linly-Dubbing是一款开源的多语言ai配音视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

webui.png

Linly-Dubbing主要特征:

  • 自动下载视频:支持从YouTube等网站下载视频

  • 多语言支持:支持中文和多种语言的配音和字幕翻译。

  • AI语音识别:准确的语音识别、语音文本转换和说话人识别。

  • LLM翻译:结合领先的大型语言模型(如GPT),可以快速准确地翻译,保证翻译的专业性和自然性。

  • 语音克隆:通过语音克隆技术,生成与原视频配音高度相似的声音,保持情感和语气的一致性。

  • 口型同步:通过保持口型同步,配音可以与视频画面高度一致,提高视频的真实性和互动性。

  • 灵活的上传和翻译:用户可以上传视频并选择翻译语言和标准,以确保个性化和灵活性。

Linly-Dubbing技术细节

语音识别

WhisperX :OpenAI Whisper语音识别系统的扩展,可以将语音内容转录为文本,与视频帧精确对齐,生成带时间戳的字幕文件,并支持多说话人识别。

FunASR :一款综合语音识别工具包,提供语音识别、语音活动检测、标点符号恢复等功能,特别针对中文语音进行了优化。

语音合成

集成了Edge TTS、XTTS、CosyVoice等多种先进的语音合成工具。

Edge TTS :微软提供的高质量文本到语音转换服务,支持多种语言和语音风格,生成自然流畅的语音输出。

XTTS :Coqui 提供的先进的深度学习文本转语音工具包,专注于语音克隆和多语言语音合成,可以通过短音频片段实现语音克隆并生成逼真的语音输出。

CosyVoice :阿里巴巴同义实验室开发的多语言语音理解与合成模型,支持多种语言的高质量语音合成和跨语言语音克隆。

字幕翻译

使用OpenAI API和Qwen模型进行多语言字幕翻译。

OpenAI API :使用OpenAI的GPT-4和GPT-3.5-turbo进行高质量的字幕翻译。这些模型以其自然语言理解和文本生成能力而闻名,适用于对话生成和文本分析。

Qwen :开源的本地化大规模语言模型,支持多语言翻译,可以经济高效地处理多种语言的文本。

谷歌翻译:集成谷歌翻译作为翻译功能的补充,提供广泛的语言支持和良好的翻译质量。

声音分离

使用 Demucs 和 UVR5 技术将人声与伴奏分开。

|Demucs :Facebook 研究团队开发的声音分离模型,可以分离混合音频中的不同声源,包括乐器、人声和背景声音。广泛应用于音乐制作和影视后期制作。

UVR5(Ultimate Vocal Remover) :一款高效的人声伴奏分离工具,可以提取接近原始立体声的伴奏,性能优于其他类似工具如RX9、RipX和SpectraLayers 9。

口型同步

借鉴Linly-Talker,我们专注于数字人唇同步技术,结合计算机视觉和语音识别技术,将虚拟角色的唇同步与配音精确匹配,达到高度自然的同步效果。该技术适用于动画人物、虚拟主播、教育视频中的旁白等多种场景。

视频处理

Linly-Dubbing提供添加字幕、插入背景音乐、调节音量和播放速度等功能,用户可以自定义视频内容,使其更具吸引力和个性化。

yt-dlp 的集成: yt-dlp 是一个功能强大的开源命令行工具,设计用于从 YouTube 和其他网站下载视频和音频。该工具具有广泛的参数选项,允许用户根据自己的需要微调下载行为。无论是选择特定格式、分辨率,还是提取音频,yt-dlp 都提供了灵活的解决方案。

与Linly-Dubbing相关工具