FantasyPortrait:单张静态图像生成多角色的情感化面部动画
FantasyPortrait 是阿里巴巴高德地图团队和北京邮电大学联合开发的框架,可以从单张静态图像生成多角色的情感化面部动画。它通过隐式特征提取复杂表情,替代传统几何先验,提升跨身份迁移能力,并利用掩码交叉注意力机制避免多角色间的特征干扰。此外,它还支持多风格角色适配、零样本动物动画生成以及低资源音频驱动等功能,适用于数字人、虚拟偶像、游戏 NPC 等领域,代码已在 GitHub 开源。
核心功能
✅隐式表情增强学习:通过隐式特征提取复杂表情,如唇部运动和情感表达,替代传统显式几何先验,提升跨身份迁移能力。
✅掩码交叉注意力机制:为多角色生成独立表情控制区域,避免特征干扰,实现“一人一频道”的协调动画。
✅多模态扩展性:支持文本和音频驱动,例如用 Whisper 编码音频生成口型动画,仅需少量数据微调即可适配多语言。
✅数据集与评估基准:构建了 Multi-Expr 数据集(3 万 + 高质量多角色视频)和 ExprBench 基准,推动行业标准化。
方法设计方面:
✅双阶段训练策略:先通过 UNet 编码表情特征,再通过扩散变换器解码动画序列。
✅多角色控制模块:通过特征掩码隔离不同角色的驱动信号,保持时间维度的一致性。
数据集与评估基准:
✅Multi-Expr 数据集:包含超过 50 万帧的多视角表情数据,是首个多角色动画数据集。
✅ExprBench 评估基准:用于训练和评估多角色肖像动画。
实验结果显示:
✅跨驱动重演任务:相比 StyleHEAT、PIRender 等方法,FID 指标提升 41.7%。
✅多角色动画生成场景:用户偏好率高达 83.5%,能准确生成眼部微颤、不对称嘴角运动等细微表情。
应用场景包括:
✅多角色动画:支持用多个单人视频或单个多人视频驱动多个角色,生成详细表情和逼真肖像动画。
✅多样化角色风格:能生成动态、富有表现力且自然逼真的多样化风格动画。
✅动物动画:虽未在动物数据集上明确训练,但在动物动画任务上泛化能力强。
✅音频驱动肖像动画:通过音频编码和基于 Transformer 的网络将音频特征映射到潜在驱动表示,实现音频驱动的肖像动画,少量训练样本下即可实现良好音视频对齐。
关键问题解答:
技术突破有哪些?
答:一是增强表达隐式控制,通过隐式面部表示学习细粒度表情特征,提升嘴部动作和情感表达建模能力;二是多角色掩码交叉注意力,独创掩码式交叉注意机制,实现多角色独立控制与协同生成,解决角色间特征干扰问题。
功能特点有哪些?
答:包括多角色同步驱动,支持用单个或多个单人视频、一段多人视频同步驱动多个角色;多风格角色适配,能为不同艺术风格角色生成动态流畅、生动自然且风格统一的视频;零样本动物动画,未经专门训练仍有卓越生成能力;低资源音频驱动,可扩展为音频驱动框架,利用 Whisper 编码音频,通过轻量级 Transformer 网络将音频特征映射到潜在驱动空间。
有哪些应用价值?
答:在影视制作中,能让独立动画师轻松生成群戏表演;在游戏领域,可使 NPC 展现千人千面的微表情;在虚拟直播中,能让多角色互动更鲜活自然。
开源信息:
GitHub 仓库:https://github.com/Fantasy-AMAP/fantasy-portrait
项目官网:https://fantasy-amap.github.io/fantasy-portrait/