VACE:阿里通义Wan团队推出的视频生成与编辑统一模型

VACE是什么?

VACE(Video Creation and Editing)是由阿里巴巴通义实验室推出的一站式ai视频生成与编辑统一模型,可以通过统一的模型架构实现多种视频创作和编辑任务。它能用一段文本或图片生成视频,也能对现有视频进行风格转换、修复或扩展。它把多种功能集成在一个模型里,操作方便,适合做创意视频或修复老视频。

VACE核心功能

视频生成:

  • 文本到视频生成:根据文本提示生成视频。

  • 参考到视频生成:结合文本和参考图像生成视频。

  • 视频扩展:基于现有视频片段生成新的开头或结尾。

视频编辑:

  • 视频到视频编辑:对输入视频进行整体风格转换(如色彩化、风格化)。

  • 遮罩视频编辑:在指定区域进行编辑,如修复(Inpainting)、扩展(Outpainting)。

  • 主体移除与重建:移除视频中的特定主体并填充背景。

任务组合:

  • 支持多种任务的灵活组合,例如参考生成+主体替换、姿态控制+视频扩展。

VACE技术原理

  • Video Condition Unit(VCU):将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。

  • Context Adapter结构:通过时间和空间维度的形式化表示,将不同任务的概念注入模型,使其能够适应不同的任务需求。

  • 扩散模型:基于扩散模型(如Diffusion Transformer)构建,通过逐步去噪的方式生成高质量的视频内容。

VACE技术原理.webp

VACE优势

  • 统一框架:将视频生成和编辑任务整合到一个模型中,减少了任务切换的复杂性。

  • 高效性:在多种任务上达到与特定任务模型相当的性能。

  • 多样性:支持多种任务组合,为视频内容创作提供了更广泛的应用可能性。

VACE应用场景

  • 创意视频生成:快速根据文本或图片生成广告、动画等创意视频内容。

  • 视频修复与增强:修复老视频、填补画面缺失部分或提升视频风格。

  • 高效视频编辑:实现主体替换、动画添加等复杂编辑任务。

  • 视频扩展:为短视频生成新片段,延长视频内容。

  • 互动视频创作:根据用户输入(如姿态、草图)生成个性化视频。

项目资源

项目官网:https://ali-vilab.github.io/VACE-Page/

GitHub仓库:https://github.com/ali-vilab/VACE

技术论文:https://arxiv.org/pdf/2503.07598

收藏
最新工具
AI Ping
AI Ping

一个专注大模型API服务的平台,围绕开发者需求提供评测整合数十家...

Howcast
Howcast

一个免费的日常学习网站,Howcast主要提供 3 万多条实用教...

巨鲸写作
巨鲸写作

一个AI论文写作助手,主打“写得快、改得准、数据能做成图”。不少...

Office Tab
Office Tab

Microsoft Office插件,能加上“标签页”功能。用W...

YPrompt
YPrompt

一个AI提示词管理和优化的工具。主要功能是通过 AI 对话了解用...

Voicv语音克隆
Voicv语音克隆

一个AI语音克隆和文字转语音的平台,只要几秒就能复制一个声音,做...

Cartoonize AI
Cartoonize AI

一个专门把照片变成卡通图的工具。它能把真人照片、宠物照、全身照很...

Betrayal.io
Betrayal.io

一款免费的多人在线社交推理游戏,玩法参考了《Among Us》《...

Cut the Rope
Cut the Rope

(Cut the Rope)《割绳子》是 ZeptoLab 做、...

Nodejam
Nodejam

一款整合多种办公功能的AI办公套件,主要把文本、电子表格和演示文...