Pusa模型:基于Mochi微调的开源视频扩散模型,支持文本、图像、视频到视频

Pusa是什么?

Pusa是由Raphael Liu于2025年4月发布的新型ai视频生成模型,其核心创新在于通过帧级噪声控制的新型扩散范式重新定义视频扩散中的时间建模。Pusa模型支持文本、图像、视频到视频的多种生成任务,并保持运动保真度和遵循提示,具有低成本、高性能的特点。

Pusa模型特点

  • 帧级噪声控制与矢量化时间步:Pusa 引入了帧级噪声控制和矢量化的时间步,这一创新最初在 FVDM 论文中提出。与传统方法相比,Pusa 的时间步数从传统的 1000 个增加到数千个,极大地提升了模型的灵活性和可扩展性。这种帧级噪声控制使得 Pusa 在视频生成过程中能够更精细地处理每一帧的内容,从而实现更高质量的视频生成效果。

  • 非破坏性修改:Pusa 对基础模型的适配保留了其原有的文本到视频生成能力。通过轻微微调,Pusa 便能够适应多种视频生成任务,而无需对基础模型进行大规模的修改。这种非破坏性修改不仅节省了开发时间和成本,还确保了模型的稳定性和可靠性。

  • 通用适用性:Pusa 的方法不仅适用于 Mochi 模型,还可以轻松应用于其他领先的视频扩散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架构

  • 帧级噪声控制:Pusa 实现了帧级噪声控制和矢量化时间步,提供了前所未有的灵活性和可扩展性。

  • 非破坏性修改:对基础模型的修改保留了其原有的文本到视频生成能力,仅需轻微微调。

  • 通用适用性:该方法可以轻松应用于其他领先的视频扩散模型,如 Hunyuan Video、Wan2.1 等。

Pusa应用场景

  • 适用于影视特效制作、广告创意生成及个性化视频内容生产。

  • 结合多模态输入(如文本+图像)实现复杂场景模拟,提升视频生成的灵活性。

Pusa安装与使用

安装:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安装 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下载权重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接从 Hugging Face 下载到本地。

基本使用:

  • 文本到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 图像到视频生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

训练:

提供了完整的 Pusa 训练代码和详细信息,支持对原始模型的训练。

代码仓库:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字转视频 #图文转视频
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...