Pusa模型:基于Mochi微调的开源视频扩散模型,支持文本、图像、视频到视频

Pusa是什么?

Pusa是由Raphael Liu于2025年4月发布的新型ai视频生成模型,其核心创新在于通过帧级噪声控制的新型扩散范式重新定义视频扩散中的时间建模。Pusa模型支持文本、图像、视频到视频的多种生成任务,并保持运动保真度和遵循提示,具有低成本、高性能的特点。

Pusa模型特点

  • 帧级噪声控制与矢量化时间步:Pusa 引入了帧级噪声控制和矢量化的时间步,这一创新最初在 FVDM 论文中提出。与传统方法相比,Pusa 的时间步数从传统的 1000 个增加到数千个,极大地提升了模型的灵活性和可扩展性。这种帧级噪声控制使得 Pusa 在视频生成过程中能够更精细地处理每一帧的内容,从而实现更高质量的视频生成效果。

  • 非破坏性修改:Pusa 对基础模型的适配保留了其原有的文本到视频生成能力。通过轻微微调,Pusa 便能够适应多种视频生成任务,而无需对基础模型进行大规模的修改。这种非破坏性修改不仅节省了开发时间和成本,还确保了模型的稳定性和可靠性。

  • 通用适用性:Pusa 的方法不仅适用于 Mochi 模型,还可以轻松应用于其他领先的视频扩散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架构

  • 帧级噪声控制:Pusa 实现了帧级噪声控制和矢量化时间步,提供了前所未有的灵活性和可扩展性。

  • 非破坏性修改:对基础模型的修改保留了其原有的文本到视频生成能力,仅需轻微微调。

  • 通用适用性:该方法可以轻松应用于其他领先的视频扩散模型,如 Hunyuan Video、Wan2.1 等。

Pusa应用场景

  • 适用于影视特效制作、广告创意生成及个性化视频内容生产。

  • 结合多模态输入(如文本+图像)实现复杂场景模拟,提升视频生成的灵活性。

Pusa安装与使用

安装:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安装 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下载权重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接从 Hugging Face 下载到本地。

基本使用:

  • 文本到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 图像到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

训练:

提供了完整的 Pusa 训练代码和详细信息,支持对原始模型的训练。

代码仓库:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字转视频 #图文转视频
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...