Pusa模型:基于Mochi微调的开源视频扩散模型,支持文本、图像、视频到视频

Pusa是什么?

Pusa是由Raphael Liu于2025年4月发布的新型ai视频生成模型,其核心创新在于通过帧级噪声控制的新型扩散范式重新定义视频扩散中的时间建模。Pusa模型支持文本、图像、视频到视频的多种生成任务,并保持运动保真度和遵循提示,具有低成本、高性能的特点。

Pusa模型特点

  • 帧级噪声控制与矢量化时间步:Pusa 引入了帧级噪声控制和矢量化的时间步,这一创新最初在 FVDM 论文中提出。与传统方法相比,Pusa 的时间步数从传统的 1000 个增加到数千个,极大地提升了模型的灵活性和可扩展性。这种帧级噪声控制使得 Pusa 在视频生成过程中能够更精细地处理每一帧的内容,从而实现更高质量的视频生成效果。

  • 非破坏性修改:Pusa 对基础模型的适配保留了其原有的文本到视频生成能力。通过轻微微调,Pusa 便能够适应多种视频生成任务,而无需对基础模型进行大规模的修改。这种非破坏性修改不仅节省了开发时间和成本,还确保了模型的稳定性和可靠性。

  • 通用适用性:Pusa 的方法不仅适用于 Mochi 模型,还可以轻松应用于其他领先的视频扩散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架构

  • 帧级噪声控制:Pusa 实现了帧级噪声控制和矢量化时间步,提供了前所未有的灵活性和可扩展性。

  • 非破坏性修改:对基础模型的修改保留了其原有的文本到视频生成能力,仅需轻微微调。

  • 通用适用性:该方法可以轻松应用于其他领先的视频扩散模型,如 Hunyuan Video、Wan2.1 等。

Pusa应用场景

  • 适用于影视特效制作、广告创意生成及个性化视频内容生产。

  • 结合多模态输入(如文本+图像)实现复杂场景模拟,提升视频生成的灵活性。

Pusa安装与使用

安装:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安装 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下载权重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接从 Hugging Face 下载到本地。

基本使用:

  • 文本到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 图像到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

训练:

提供了完整的 Pusa 训练代码和详细信息,支持对原始模型的训练。

代码仓库:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字转视频 #图文转视频
最新工具
Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM
森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能,你可以沉...

Sweezy Cursors
Sweezy Cursors

一个提供免费鼠标光标​​的网站,支持​​Chrome浏览器​​和...

YumCheck
YumCheck

一款能帮用户解析食品包装上的营养成分标签,评估食品是否健康的免费...

CookingGames
CookingGames

一个提供免费烹饪和烘焙游戏的网站。这里有多种类型的游戏,适合不同...

Doll Divine
Doll Divine

一款以换装和角色创建为核心的在线游戏平台,Doll Divine...