PartCrafter:单张图像生成多个部件和对象的3D生成模型
PartCrafter是什么?
PartCrafter 是一个由北京大学、字节跳动和卡内基梅隆大学合作开发的新型 3D 生成工具。它可以从一张普通的 RGB 图片中直接生成多个具有明确结构和形状的 3D 网格部件。
核心功能
多部件生成:PartCrafter 能够一次性从单张图片中生成多个独立的 3D 部件,不需要先对图片进行分割处理。
部件级操作:生成的 3D 模型支持单独编辑每个部件,比如调整位置、旋转角度或缩放大小。
一键生成:用户只需提供一张图片,PartCrafter 就能直接生成复杂的 3D 场景。
高效生成:借助预训练的 3D 网格扩散 Transformer(DiT),PartCrafter 的生成速度更快。
技术原理
组合式潜在空间:每个3D部件都用一组独立的潜在令牌来表示。这样一来,部件在生成的时候可以各自独立发展,还能保留住部件级别的细节。
层次化注意力机制:这个机制能让信息在单个部件内部以及各个部件之间有序流动,确保生成出来的东西整体上是一致的。
基于预训练的3D网格扩散变换器(DiT):它继承了预训练的权重、编码器和解码器,这些都让模型的生成能力更上一层楼。
端到端部件感知生成:只要有一张图片,就能同时对多个3D部件进行去噪处理,实现从单个对象到复杂多对象场景的直接生成。
数据与训练
数据集:从大规模 3D 数据集中提取部件级注释,构建了一个包含约 5 万个标注对象和 30 万个独立部件的数据集。
训练方法:采用课程学习策略,逐步优化模型性能。
应用场景
游戏开发:能快速生成高质量的3D游戏资产,像角色、道具和场景这些。开发者只要给一张图或者简单描述一下,很快就能得到大量3D模型,大大加快游戏开发速度。
建筑和室内设计:可以快速生成建筑模型和室内装饰方案。设计师把建筑图纸或设计草图上传进去,马上就能得到3D模型,方便做方案展示,让客户更清楚地理解设计想法。
影视制作:它有超高清几何细节建模能力,还能通过多视图输入生成PBR模型,能给影视制作团队提供高质量的3D模型素材。
性能表现
效率高:从单张图片生成结构化的 3D 模型仅需约 40 秒。
精度高:部件生成精度和场景一致性分别比现有方法提高了 32% 和 28%。
项目链接
项目主页:https://wgsxm.github.io/projects/partcrafter/
GitHub 仓库:https://github.com/wgsxm/PartCrafter
论文地址:https://arxiv.org/abs/2506.05573