首页 > Ai导航 > Ai工具箱 > Ai开源项目

Audio2Photoreal

从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

#Ai工具箱 #Ai开源项目

访问Audio2Photoreal

Audio2Photoreal简介

Meta ai最近发布了一项炸裂的技术：Audio2PhotoReal，从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

这些生成的虚拟人物不仅在视觉上很逼真，而且能够准确地反映出对话中的手势和表情细节，如指点、手腕抖动、耸肩、微笑、嘲笑等。

Audio2PhotoReal工作原理：

Audio2PhotoReal结合了向量量化的样本多样性和通过扩散获得的高频细节的优势，以生成更具动态性和表现力的动作。

1、数据集捕获：首先捕获了一组丰富的双人对话数据集，这些数据集允许进行逼真的重建。

2、运动模型构建：项目构建了一个包括面部运动模型、引导姿势预测器和身体运动模型的复合运动模型。

3、面部运动生成：使用预训练的唇部回归器处理音频，提取面部运动相关的特征。

利用条件扩散模型根据这些特征生成面部运动。

4、身体运动生成：以音频为输入，自回归地输出每秒1帧的向量量化（VQ）引导姿势。将音频和引导姿势一起输入到扩散模型中，以30帧/秒的速度生成高频身体运动。

5、虚拟人物渲染：将生成的面部和身体运动传入训练好的虚拟人物渲染器，生成逼真的虚拟人物。

6、结果展示：最终展示的是根据音频生成的全身逼真虚拟人物，这些虚拟人物能够表现出对话中的细微表情和手势动作。

Audio2Photoreal项目地址：https://github.com/facebookresearch/audio2photoreal/

Audio2Photoreal论文地址：https://arxiv.org/pdf/2401.01885.pdf

Zero123

IP-Adapter-FaceID

与Audio2Photoreal相关工具

Audionautix

一个专注于提供免费可商用背景音乐的在线平台，由作曲家 Jason Shaw 创立，为创作者如视频博主、自媒体人、等提供无...

AudioTextHub

一个免费AI文本转语音平台，它的核心优势是独创的AI风格提示词技术，能控制语音的情感、语调、语速和特效。

PhotoFox AI

把一张产品照片，短时间内变成工作室风格照片、生活场景照片、滚动展示视频等多种素材，并且保持品牌风格统一。帮电商卖家解决拍...

Aice PS

网页版AI照片编辑器，利用Google aistudio的的先进能力，支持 AI 生成图片、智能修图、创意滤镜等功能，适...

Photodot AI

一个在线修图工具，不用下载安装，打开网页就能用。你直接用文字告诉它想改啥——比如给汽车换个颜色、换轮毂、加尾翼，或者给人...

id-photo

证件照大师，专业的证件照在线处理网站，具有证件照换底色，证件照质量压缩，证件照合成等证件照处理功能。

最新工具

FastBuildAI

一个面向AI开发者，创业者设计的开源AI应用框架，它几分钟就能部...

Windrecorder

捕风记录仪，一款开源的屏幕录制与检索工具，它记录屏幕内容来实现记...

AiPyApp

一款以Python为核心的开源新人工智能体助手，结合大模型和 P...

LandPPT

一个基于大语言模型的开源免费AIPPT生成平台，支持将文档内容自...

BongoCat

一款轻量级、开源且跨平台的桌面猫咪宠物应用，由开发者ayoung...

ValueCell AI

全球首个开源金融智能体平台，采用社区驱动和多智能体模式，Valu...

FlyCut Caption

一款开源的视频字幕编辑工具，支持智能生成字幕、编辑字幕和裁剪视频...

ChopperBot

一款能用于像虎牙、斗鱼、抖音、BiliBili、TikTok、T...

Awesome-Nano-Banana

JimmyLv创建的GitHub仓库，专门收集和展示Google...

ReactBits

一个免费开源的动画化、可交互React组件库，里面有好多动画化、...

用户登录