DreamBooth
DreamBooth简介
DreamBooth是谷歌研究院和波士顿大学在2022年做的个性化文生图技术。它想用很少的样本,让预训练好的扩散模型记住一个特定对象,比如人、宠物、物品或者某种风格,之后能在各种场景和风格里生成这个对象的高清图。一开始它是配合谷歌的Imagen展示的,后来被用到StableDiffusion等模型上,成了个性化生成的常用方法。

DreamBooth怎么工作
用很少的图片做微调。一般只要3–5张对象的图,再配上带“唯一词+类别名”的文字提示,比如“aphotoof[V]dog”,把新对象连到模型的语义里。
训练时加一个类特定先验保持的损失,让模型还保留原来类别的多样样子,这样不会过拟合或者出现语言漂移,换场景也能生成不一样的对象。
再做超分辨率微调。先生成低分辨率图,然后用SR模块一步步提升清晰度,常见做法是64×64→256×256→1024×1024,把细节和纹理弄得更真实。
DreamBooth使用步骤
先找3–5张对象的高清图,不同角度更好。
给对象起个少见的词,写简单的类别说明,比如aphotoofsksdog。
选好学习率和参考图片集,开始微调。用单卡的话,要8–24GB显存,花1–2小时。
训练完,输入像sksdogwearingspacesuitonMars这样的提示,就能得到你家柯基在火星上的图。
DreamBooth主要特点
用很少样本就能明显改输出。
能装到多种文生图扩散模型上,比如StableDiffusion。
社区有现成权重、Colab教程和各种界面工具,容易学也容易用。
DreamBooth好处和问题
好处:
只要几张图就行,不用配对的文字和图。
能抓住个体细节,比如花纹、脸型、商品logo。
生成质量高,靠StableDiffusion的丰富信息,细节很真。
问题:
显存要求高,全参数微调要15–24GB,用LoRA能降到8–12GB。
容易过拟合,如果控制不好,模型可能只认训练的对象,生成别的同类东西会走样。
训练比LoRA慢,LoRA只要30–60分钟,DreamBooth全微调得1–2小时。
DreamBooth常见场景
给个人或宠物做虚拟形象,把自己或猫狗放进游戏、电影场景里。
给商品出定制图,上传产品照片,一次生成不同风格的广告图。
做角色设计,影视或游戏公司可以快速做出同一角色的不同姿势和光影稿。
注意的事
训练很吃显存,普通显卡可能贵,用云端GPU或优化办法能省点钱。
图最好用3–10张,多角度、不同背景、清楚一点,这样生成更稳更像。
讲白了,DreamBooth就是让大模型记住一个小个体,是aiGC里很有代表性的个性化出图方法,用在动漫上不错。
专业论文写作-降AI率
Ai应用
Ai资讯
漫剧一条龙
爆单神器-绘蛙
开源AI应用平台







