SketchVideo:一种基于线稿的可控视频生成和编辑方法

SketchVideo是什么?

SketchVideo 是由中国科学院大学、香港科技大学和快手可灵团队研究人员提出的一种基于线稿的可控视频生成和编辑方法开源项目。它靠智能预测运动、多模态控制和实时渲染三大技术,让动画创作变得轻松。这个项目在营销、教学和个人创意展示等领域很有用,能吸引观众,引发共鸣,是新兴视频形式的代表。

SketchVideo:一种基于线稿的可控视频生成和编辑方法.webp

SketchVideo功能特点

  • 视频生成:用户仅需提供单帧或两帧线稿,并结合文本提示,SketchVideo 就能生成高质量的视频。例如,绘制一个简单的动物轮廓线稿,加上“在森林中奔跑”的文本描述,就能生成该动物在森林中奔跑的视频。

  • 视频编辑:给定真实视频后,用户可以指定编辑区域并绘制线稿进行局部修改。比如在一段人物视频中,对人物的发型进行修改,新生成的发型会随着人物的头部运动而自然变化。

  • 动态控制:支持运动插值和外推,用户通过绘制不同关键帧的线稿,可控制物体的运动状态。

  • 细节保留:在编辑视频时,能够保留未修改区域的细节,确保编辑后的视频在视觉上自然、连贯。

  • 高效生成:采用内存优化技术,快速生成高质量视频。例如,SketchGen 模型在 A100 GPU 上生成单帧视频的时间约为 95 秒。

SketchVideo技术原理

  • 草图条件网络:基于 DiT 视频生成模型,设计专门的草图条件网络。该网络包含多个草图控制块,预测跳过的 DiT 块的残差特征,并将控制信号注入到不同层次的特征中。

  • 帧间注意力机制:通过计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系,将关键帧上的草图条件传播到所有视频帧,实现对草图特征的时空传播。

  • 视频插入模块:在视频编辑任务中,该模块分析输入草图与原始视频之间的关系,生成与原始视频空间和时间上一致的新内容。

  • 潜在融合技术:在推理过程中,基于 DDIM 反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码,保留原始视频的细节。

  • 混合训练策略:结合图像和视频数据进行训练。先用图像和视频数据加速收敛,解决视频数据有限的问题;再用视频数据进一步优化时间连贯性。

SketchVideo优势

  • 降低创作门槛:让普通用户无需专业知识和技能,通过草图和文本就能轻松创作视频,激发每个人的创作潜能。

  • 精准控制细节:通过草图条件网络预测并注入不同层次的特征控制信号,能细致地描绘和呈现从物体形状、位置到场景整体布局等每一个细节。

  • 高效便捷:采用基于DiT的视频生成模型,创新性地加入草图控制块和帧间注意力机制,保证高质量输出的同时实现高效的内存优化,快速生成视频,节省创作时间。

SketchVideo应用场景

  • 影视制作:可用于快速生成动画视频,或对影视片段进行特效添加、场景修改等操作。

  • 短视频合成:创作者可轻松创作个性化的短视频内容,如手绘风格的动画故事、创意广告等。

  • 虚拟仿真:在虚拟场景构建中,通过线稿快速生成动态的虚拟环境,用于游戏开发、虚拟培训等领域。

项目信息

论文:https://arxiv.org/abs/2503.23284

项目官网:http://geometrylearning.com/SketchVideo

GitHub 仓库:https://github.com/IGLICT/SketchVideo

收藏
最新工具
GreenVideo
GreenVideo

一个无次数限制的视频下载平台,免费、稳定、速度快,支持全球100...

证件星
证件星

一个在线 AI 智能证件照制作工具,小白也能轻松上手,十秒就能做...

id-photo
id-photo

证件照大师,专业的证件照在线处理网站,具有证件照换底色,证件照质...

RealBankNotes
RealBankNotes

一个全球纸币收藏网站。目前有54000张纸币,数量还在增加,就好...

MuscleWiki
MuscleWiki

一个能可视化全身肌肉的健身指南教程网站,有全面的锻炼库,包含 5...

写个字吧
写个字吧

用来生成汉字字帖简单好用的在线工具,只要帮用户练习书写。用户输入...

推推侠
推推侠

一款TikTok达人建联工具,具有精准推荐高潜达人、智能扩展爆单...

TryShortCut AI
TryShortCut AI

一款Excel助手,用户不需要编写复杂公式或VBA代码就能完成E...

TabBoost
TabBoost

一款基于Chrome的浏览器插件,设计上参考了 Arc 浏览器的...

Goblin Tools
Goblin Tools

一免费的专为神经多样性人群设计AI 应用,能帮用户分解任务、检查...