MagicTryOn:浙江大学和vivo推出的开源视频虚拟试穿项目
MagicTryOn是什么?
MagicTryOn 是浙江大学和 vivo 合作推出的开源视频虚拟试穿项目。它用视频扩散 Transformer 的 DiT 架构,让服装试穿看起来更真实、更稳当。这个项目靠全自注意力机制,保证视频各帧连贯,不会像老方法那样出现闪烁、抖动。它的主要功能有:精准保留服装细节,通过多条件引导生成更真实的试穿效果,还用掩码感知损失提升生成质量。在多个数据集上,MagicTryOn 表现很好,视觉质量和泛化能力都很强。
MagicTryOn技术原理
扩散 Transformer(DiT)架构:该架构模块化设计允许更灵活地注入条件信息,多级服装特征能有效整合到去噪过程中。其内置的全自注意力机制可联合建模视频的时空一致性,捕捉帧内局部细节和帧间动态变化。
粗到细的服装保持策略:粗策略是在嵌入阶段,将服装标记注入输入标记序列,扩展旋转位置编码的网格大小,让服装标记和输入标记共享一致的位置编码;细策略是在去噪阶段,引入语义引导交叉注意力和特征引导交叉注意力模块,提供细粒度的服装细节引导。
掩码感知损失(Mask-Aware Loss):基于此损失,模型能更专注于服装区域的生成,提高服装区域的细节保真度和整体合成结果的真实感。
MagicTryOn主要功能
服装细节保留:可精确模拟服装的纹理、图案和轮廓,在人物运动时保持真实感和稳定性。
时空一致性建模:确保视频中各帧之间的连贯性,避免服装闪烁和抖动。
多条件引导:基于文本、图像特征、服装标记和轮廓线标记等多种条件,生成更真实、更细致的试穿效果。
MagicTryOn应用场景
在线购物:用户可在线试穿不同服装。
时尚设计:设计师能快速预览服装效果。
虚拟试衣间:为实体店提供虚拟试衣服务。
广告与营销:品牌可制作个性化试穿广告。
游戏与娱乐:在游戏中实时试穿虚拟服装。
项目链接
项目官网:https://vivocameraresearch.github.io/magictryon/
GitHub 仓库:https://github.com/vivoCameraResearch/Magic-TryOn/
arXiv 技术论文:https://arxiv.org/pdf/2505.21325