阿里巴巴开源万相Wan2.1 - VACE视频模型
2025年5月14号晚上,阿里巴巴旗下的通义万相团队把万相Wan2.1 - VACE的视频编辑与生成统一模型开源,该ai模型不仅可以直接“生成”视频,还能对已有视频进行各种复杂的编辑和再创作处理。而且,只需一个模型就能完成所有这些工作,你可以精准控制视频中角色的动作、姿态、方向、构图布局、运动轨迹、风格风貌等。
核心优势
万相Wan2.1 - VACE是现在视频生成和编辑功能最全的解决方案。它一个模型架构就能搞定好多视频处理任务,像用文字生成视频、参考图片生成视频、给视频重绘、局部修改视频内容、扩展视频背景,还能延长时间。而且它还支持多任务一起做,用户在一个流程里就能完成复杂的视频编辑,创作过程简单多了。
另外,Wan2.1-VACE还有一大优势是允许用户可以将多个基础功能自由组合,灵活搭配,形成复杂应用场景。
这个模型有1.3B和14B两种参数规模。1.3B这种轻量级的版本,用消费级显卡就能流畅运行,还能输出480P的视频;14B的满血版能支持更高分辨率,像720P,效果更好。
技术创新
这个模型引入了全新的视频条件单元VCU,把文生视频、参考图生视频、视频生视频和局部视频生视频这些视频生成和编辑任务统一起来了。VCU能将各种输入,像文字、图片等,转化成文本、帧序列和Mask序列,为多任务自由组合打下了基础。
它还对VCU输入的帧序列进行处理,把它们分成可变序列和不可变序列分别编码,解决了token序列化的问题,让多模态输入的处理效率更高了。
实际应用
用这个模型能把一幅竖版的《蒙娜丽莎》静态图片,变成横版动态视频,还能给人物加上眼镜,一下就完成了画幅扩展、时长延展和图像参考这三项任务,给创作者的创意发挥提供了很大空间。
下载途径
开发者可以在GitHub、Huggingface以及魔搭社区这几个平台下载和体验这个模型。
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社区:https://www.modelscope.cn/organization/Wan-AI?tab=model
Wan2.1 - VACE开源,让视频生成技术从只能做单个任务,向多个任务组合发展前进了一大步,给视频创作者提供了更加便捷和高效的工具。