DreamTalk

DreamTalk

一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。

#Ai工具箱 #Ai开源项目
收藏

DreamTalk简介

DreamTalk,一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。

DreamTalk演示地址:https://dreamtalk-project.github.io

DreamTalk项目地址:https://dreamtalk-project.github.io/

DreamTalk论文地址:https://arxiv.org/abs/2312.09767

DreamTalk--dreamtalk-project.github.jpg

DreamTalk使用场景:

  • 使用 DreamTalk 生成具有多样化语言和表情风格的说话人脸

  • 应用 DreamTalk 在影视制作中实现逼真的虚拟角色表情动作

  • 使用 DreamTalk 在人机交互场景中实现自然的面部表情和嘴唇运动

DreamTalk功能:

具体来说,DreamTalk 由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器。基于扩散的降噪网络能够在不同的表情中一致地合成高质量的音频驱动的面部运动。为了提高嘴唇动作的表现力和准确性,我们引入了一位具有风格意识的嘴唇专家,可以在注意说话风格的同时指导嘴唇同步。为了消除对表情参考视频或文本的需求,使用额外的基于扩散的样式预测器直接从音频中预测目标表情。

1、去噪网络:这是核心组件之一,负责生成音频驱动的面部动作。去噪网络使用扩散模型来逐步去除噪声,从而生成清晰、高质量的面部表情。这个过程涉及从带有噪声的数据中逐步恢复出清晰的面部动作。

2、风格感知的嘴唇专家:这个组件专注于提高嘴唇动作的表现力和准确性。它通过分析说话风格来引导嘴唇同步,确保生成的动画既自然又符合说话者的风格。

3、风格预测器:为了消除对表情参考视频或文本的依赖,DreamTalk引入了一个基于扩散的风格预测器。这个预测器可以直接从音频预测目标表情,无需额外的表情参考视频或文本。

4、音频和视频处理:处理音频输入,提取关键的音频特征,并将这些特征用于驱动面部动画。同时,它还能处理视频输入,以提取和模仿特定的表情和风格。

5、数据和模型训练:为了实现这些功能,DreamTalk需要大量的数据来训练其模型,包括不同表情和说话风格的面部动画数据。通过这些数据,模型学习如何准确地生成与输入音频匹配的面部动作。

DreamTalk可以利用强大的扩散模型有效地生成富有表现力的面孔,并减少对昂贵的风格参考的依赖。实验结果表明,DreamTalk能够生成具有不同说话风格的逼真的说话面孔,并实现准确的嘴唇动作,超越了现有的最先进的同类产品。

DreamTalk不仅能够处理和生成它在训练过程中见过的面部类型和表情,还能有效处理和生成它之前未见过的、来自不同数据集的面部类型和表情。

包括不同种族、年龄、性别的人物肖像,以及各种不同的表情和情绪。

与DreamTalk相关工具