SketchVideo:一种基于线稿的可控视频生成和编辑方法
SketchVideo是什么?
SketchVideo 是由中国科学院大学、香港科技大学和快手可灵团队研究人员提出的一种基于线稿的可控视频生成和编辑方法开源项目。它靠智能预测运动、多模态控制和实时渲染三大技术,让动画创作变得轻松。这个项目在营销、教学和个人创意展示等领域很有用,能吸引观众,引发共鸣,是新兴视频形式的代表。
SketchVideo功能特点
视频生成:用户仅需提供单帧或两帧线稿,并结合文本提示,SketchVideo 就能生成高质量的视频。例如,绘制一个简单的动物轮廓线稿,加上“在森林中奔跑”的文本描述,就能生成该动物在森林中奔跑的视频。
视频编辑:给定真实视频后,用户可以指定编辑区域并绘制线稿进行局部修改。比如在一段人物视频中,对人物的发型进行修改,新生成的发型会随着人物的头部运动而自然变化。
动态控制:支持运动插值和外推,用户通过绘制不同关键帧的线稿,可控制物体的运动状态。
细节保留:在编辑视频时,能够保留未修改区域的细节,确保编辑后的视频在视觉上自然、连贯。
高效生成:采用内存优化技术,快速生成高质量视频。例如,SketchGen 模型在 A100 GPU 上生成单帧视频的时间约为 95 秒。
SketchVideo技术原理
草图条件网络:基于 DiT 视频生成模型,设计专门的草图条件网络。该网络包含多个草图控制块,预测跳过的 DiT 块的残差特征,并将控制信号注入到不同层次的特征中。
帧间注意力机制:通过计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系,将关键帧上的草图条件传播到所有视频帧,实现对草图特征的时空传播。
视频插入模块:在视频编辑任务中,该模块分析输入草图与原始视频之间的关系,生成与原始视频空间和时间上一致的新内容。
潜在融合技术:在推理过程中,基于 DDIM 反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码,保留原始视频的细节。
混合训练策略:结合图像和视频数据进行训练。先用图像和视频数据加速收敛,解决视频数据有限的问题;再用视频数据进一步优化时间连贯性。
SketchVideo优势
降低创作门槛:让普通用户无需专业知识和技能,通过草图和文本就能轻松创作视频,激发每个人的创作潜能。
精准控制细节:通过草图条件网络预测并注入不同层次的特征控制信号,能细致地描绘和呈现从物体形状、位置到场景整体布局等每一个细节。
高效便捷:采用基于DiT的视频生成模型,创新性地加入草图控制块和帧间注意力机制,保证高质量输出的同时实现高效的内存优化,快速生成视频,节省创作时间。
SketchVideo应用场景
影视制作:可用于快速生成动画视频,或对影视片段进行特效添加、场景修改等操作。
短视频合成:创作者可轻松创作个性化的短视频内容,如手绘风格的动画故事、创意广告等。
虚拟仿真:在虚拟场景构建中,通过线稿快速生成动态的虚拟环境,用于游戏开发、虚拟培训等领域。
项目信息
论文:https://arxiv.org/abs/2503.23284
项目官网:http://geometrylearning.com/SketchVideo
GitHub 仓库:https://github.com/IGLICT/SketchVideo