DreamBooth

DreamBooth

谷歌研究院和波士顿大学在2022年做的个性化文生图技术。它想用很少的样本,让预训练好的扩散模型记住一个特定对象,比如人、宠物、物品或者某种风格,之后能在各种场景和风格里生成这个对象的高清图。

#Ai工具箱 #Ai开源项目
收藏

DreamBooth简介

DreamBooth是谷歌研究院和波士顿大学在2022年做的个性化文生图技术。它想用很少的样本,让预训练好的扩散模型记住一个特定对象,比如人、宠物、物品或者某种风格,之后能在各种场景和风格里生成这个对象的高清图。一开始它是配合谷歌的Imagen展示的,后来被用到StableDiffusion等模型上,成了个性化生成的常用方法。

DreamBooth

DreamBooth怎么工作

  • 用很少的图片做微调。一般只要3–5张对象的图,再配上带“唯一词+类别名”的文字提示,比如“aphotoof[V]dog”,把新对象连到模型的语义里。

  • 训练时加一个类特定先验保持的损失,让模型还保留原来类别的多样样子,这样不会过拟合或者出现语言漂移,换场景也能生成不一样的对象。

  • 再做超分辨率微调。先生成低分辨率图,然后用SR模块一步步提升清晰度,常见做法是64×64→256×256→1024×1024,把细节和纹理弄得更真实。

DreamBooth使用步骤

  1. 先找3–5张对象的高清图,不同角度更好。

  2. 给对象起个少见的词,写简单的类别说明,比如aphotoofsksdog。

  3. 选好学习率和参考图片集,开始微调。用单卡的话,要8–24GB显存,花1–2小时。

  4. 训练完,输入像sksdogwearingspacesuitonMars这样的提示,就能得到你家柯基在火星上的图。

DreamBooth主要特点

  1. 用很少样本就能明显改输出。

  2. 能装到多种文生图扩散模型上,比如StableDiffusion。

  3. 社区有现成权重、Colab教程和各种界面工具,容易学也容易用。

DreamBooth好处和问题

好处:

  • 只要几张图就行,不用配对的文字和图。

  • 能抓住个体细节,比如花纹、脸型、商品logo。

  • 生成质量高,靠StableDiffusion的丰富信息,细节很真。

问题:

  • 显存要求高,全参数微调要15–24GB,用LoRA能降到8–12GB。

  • 容易过拟合,如果控制不好,模型可能只认训练的对象,生成别的同类东西会走样。

  • 训练比LoRA慢,LoRA只要30–60分钟,DreamBooth全微调得1–2小时。

DreamBooth常见场景

  • 给个人或宠物做虚拟形象,把自己或猫狗放进游戏、电影场景里。

  • 给商品出定制图,上传产品照片,一次生成不同风格的广告图。

  • 做角色设计,影视或游戏公司可以快速做出同一角色的不同姿势和光影稿。

注意的事

  • 训练很吃显存,普通显卡可能贵,用云端GPU或优化办法能省点钱。

  • 图最好用3–10张,多角度、不同背景、清楚一点,这样生成更稳更像。

讲白了,DreamBooth就是让大模型记住一个小个体,是aiGC里很有代表性的个性化出图方法,用在动漫上不错。

与DreamBooth相关工具