DreamActor-M1:字节跳动推出的一张人物照片替换到一段动作视频里的框架

DreamActor-M1是什么?

DreamActor-M1是字节跳动推出的一款基于扩散变换器(DiT)的人类图像动画框架,类似Runway的Act one,给定一张参考图像, DreamActor - M1可以模仿从视频中捕捉到的人类行为,制作多个尺度(从肖像到全身动画)的高度表现力和逼真的视频,也解决了其他框架表情和动作做得不够细腻,长视频容易细节会对不上,穿帮的问题,支持各种动作风格,表现均优于 Act-One、Animate Everyone 和 SkyReels-A1。

DreamActor-M1是什么?.webp

DreamActor-M1核心功能

  • 静态照片转动态影像:通过结合一张静态照片和一段参考动作视频,将照片中的人物无缝替换到视频场景中,生成表情细腻、动作自然且画质高清的动态影像。

  • 精细控制:采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等控制信号,实现对人物面部表情和身体动作的精准控制。

  • 灵活的运动转移:支持仅传递部分运动,例如面部表情和头部运动。

  • 面部动画支持:可扩展至音频驱动的面部动画,实现多语言的口型同步。

  • 形状感知动画:通过骨骼长度调整技术,实现形状适应的动画生成。

  • 多样化风格支持:对各种角色和运动风格具有鲁棒性。

  • 多种视角支持:能在不同的头部姿态下生成动画结果。

DreamActor-M1技术原理

  • 混合引导机制:结合隐式面部表示、3D头部球体和3D身体骨架等控制信号,确保生成的动画在细节上高度逼真,同时保持整体的协调性和流畅性。

  • 多尺度适应性:通过逐步训练策略,能处理各种身体姿势和不同分辨率的图像,支持从肖像到全身视图的转换。

  • 长期时间一致性:通过整合连续帧的运动模式和视觉参考,确保在复杂动作中未观察区域的时间一致性。

  • 面部动画与语音支持:支持音频驱动的面部动画,能实现多语言的口型同步。

DreamActor-M1技术原理.jpg

DreamActor-M1应用场景

  • 影视制作:用于生成虚拟角色的动画。

  • 广告行业:创建动态的人物广告。

  • 视频游戏:生成游戏中的角色动画。

  • 虚拟主播:为虚拟主播提供更自然、更逼真的动画效果。

  • 教育与培训:创建动态的教学视频,使人物能够进行各种动作和表情。

  • 社交媒体:生成个性化的动态头像或短视频。

项目链接

项目官网:https://grisoon.github.io/DreamActor-M1/

arXiv技术论文:https://arxiv.org/pdf/2504.01724

收藏
最新工具
易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...

JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...

NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...

AI Dungeon
AI Dungeon

一款靠AI运行的文字冒险游戏。玩家可以自己选或创建冒险场景,像幻...