3DV-TON:一种基于扩散模型的视频试穿生成框架
3DV-TON是什么?
3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是一种基于扩散模型的新型视频试穿技术,可以解决现有视频试穿方法在处理复杂服装图案和多样化人体姿态时难以生成高质量且时间一致结果的问题。
3DV-TON核心技术
3D纹理引导:3DV-TON利用生成的动画纹理3D网格作为帧级指导,确保服装纹理与人体几何细节(如褶皱和光影效果)的贴合。
视频一致性:通过视频扩散模型(如HunyuanVideo或Stable Video Diffusion),保持动态场景中多个帧的服装时空一致性,避免闪烁或变形。
自适应生成流程:该技术采用自适应管道,首先选择一个关键帧进行初始2D图像试穿,然后重建并动画化一个与原始视频姿态同步的纹理3D网格。
矩形掩码策略:引入鲁棒的矩形掩码策略,有效减轻了在动态人体和服装运动过程中因服装信息泄露导致的伪影传播。
3DV-TON特点
高保真视觉效果:支持4K分辨率输出,服装纹理细节(如织物材质和图案)逼真,适用于复杂动作和多角度展示。
多场景适配:支持从单张服装图像生成动态试穿视频,适用于电子商务展示、虚拟换装游戏和AR/VR应用。
用户友好接口:提供API和可视化工具,允许开发者和设计师通过文本提示或图像输入快速生成试穿视频。
数据集
为了推动视频试穿研究,3DV-TON团队还推出了HR-VVT,这是一个包含130个视频的高分辨率基准数据集,涵盖多种服装类型和场景。
3DV-TON方法
3DV-TON,利用生成的可动画纹理 3D 网格作为显式帧级指导,避免模型过度关注外观保真度而忽视运动连贯性;采用自适应管道生成动态 3D 指导,先选关键帧进行初始 2D 图像换装,再重建并动画化与原视频姿态同步的纹理 3D 网格;引入鲁棒的矩形掩蔽策略,减少动态人体和服装运动中服装信息泄漏导致的伪影传播。
3DV-TON应用场景
电子商务:为电商平台(如Shopify和Amazon)生成动态服装试穿视频。
虚拟时尚和元宇宙:支持VR/AR试穿体验,在虚拟环境中试穿数字服装。
影视动画:生成数字角色的真实服装动画,降低CG制作成本。
个性化定制:结合用户上传的身体数据和服装图像,生成个性化试穿视频。
项目主页:https://2y7c3.github.io/3DV-TON/
论文技术:https://2y7c3.github.io/pdfs/3dvton.pdf