FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具

FantasyTalking是什么?

FantasyTalking 是阿里巴巴研发的一款虚拟角色动画生成工具,可从单张静态肖像生成逼真的动态说话肖像。它采用双阶段音频-视觉对齐策略,确保口型与语音精准同步,同时通过面部聚焦的交叉注意力模块和运动强度调制模块,生成自然、多样化的动画。只要应用在游戏、影视、虚拟现实上,可以快速生成高质量的虚拟角色动画。

FantasyTalking 技术原理

  • 双阶段音频-视觉对齐策略:第一阶段采用片段级训练方案,对整个场景中的音频驱动动态进行对齐,包括参考肖像、上下文对象和背景,建立连贯的全局运动;第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。

  • 面部聚焦的交叉注意力模块:取代常用的参考网络,有效保持视频中面部的一致性。

  • 运动强度调制模块:明确控制表情和身体运动的强度,使肖像的运动不仅限于唇部动作,还能实现更自然、多样化的动画。

FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具.webp

FantasyTalking 主要功能

  • 口型同步:能够准确识别并同步虚拟角色的口型与输入语音,使角色说话时的口型与语音内容完全一致。

  • 面部动作生成:根据语音内容和情感信息,生成眨眼、皱眉、微笑等丰富的面部动作。

  • 全身动作生成:根据场景和情节需要,生成行走、奔跑、跳跃等全身动作。

FantasyTalking核心优势

  • 高度逼真:利用先进的人工智能算法和深度学习技术,生成的虚拟角色动画在外观、动作和表情上都与真实人类无异。

  • 灵活易用:提供简洁直观的用户界面和丰富的 API 接口,支持多种输入格式和输出格式,方便用户快速上手并集成到自己的项目中。

  • 高效稳定:采用优化的算法和高效的计算架构,能在短时间内生成高质量的虚拟角色动画,同时保证系统的稳定性和可靠性。

FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具.webp

FantasyTalking 应用场景

  • 游戏开发:可用于生成游戏角色的对话动画、战斗动画等,提升游戏的视觉效果和互动性。

  • 影视制作:帮助制作团队快速生成高质量的虚拟角色表演动画、特效动画等,降低制作成本和时间成本。

  • 虚拟现实和增强现实:为虚拟现实和增强现实应用生成虚拟角色的交互动画、引导动画等,提升用户的沉浸感和体验效果。

项目官网:https://fantasy-amap.github.io/fantasy-talking/ 

Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking 

arXiv论文:https://arxiv.org/pdf/2504.04842


收藏
最新工具
终身教育平台
终身教育平台

国家开放大学打造的免费在线学习平台,终身教育平台整合多领域优质资...

Radiocast
Radiocast

一个能听到全球广播的在线平台。界面像三维地球,点一下上面的城市或...

易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...

JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...