PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架

PrimitiveAnything是什么?

PrimitiveAnything是腾讯人工智能平台部(aiPD)和清华大学联合开发的新型3D形状生成框架。它能把复杂的 3D 形状拆成简单的部件,再重新组合成完整的形状。这个工具生成的模型质量高,能用不同的方式创作,还方便存储和编辑。它用了一种清晰的参数化方法和自回归架构,确保训练过程稳定、准确。它支持从文本或图片生成 3D 内容,还能灵活添加新的部件类型,适应多种表示方式。

PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架.webp

PrimitiveAnything主要功能

  • 高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的直观理解。

  • 多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。

  • 高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。

  • 自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。

  • 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。

  • 几何保真度与语义一致性:在生成过程中,保持了高几何保真度,能生成符合人类认知的语义分解结果。

  • 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。

PrimitiveAnything主要功能.webp

技术原理

  • 无歧义的参数化方案:使用多种类型的基元(如立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状,为解决参数化中固有的歧义性,研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。

  • 自回归变换器架构:采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。为建模基元属性之间的依赖关系,使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性,捕捉了基元属性之间的自然相关性,与人类组装逻辑相符。

  • 自回归生成流程:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel - Softmax(用于可微采样),直到生成序列结束标记。

PrimitiveAnything技术原理.jpg

性能表现

在涵盖家具、交通工具、建筑等12个类别的测试集上,PrimitiveAnything展现出惊人性能。例如在倒角距离(CD)指标上,传统方法为0.82,现有SOTA为0.45,而PrimitiveAnything达到0.21;在体素IoU指标上,传统方法为68%,现有SOTA为75%,PrimitiveAnything为89% ;在分割一致性(SC)指标上,传统方法为0.63,现有SOTA为0.71,PrimitiveAnything为0.92;在存储压缩率上,传统方法为1x,现有SOTA为3x,PrimitiveAnything达到15x。更值得关注的是其跨模态生成能力,在文本到3D的生成任务中,系统可以准确理解“带有弧形靠背的木质餐椅”这类复杂描述,生成符合语义的基元组合结构。

PrimitiveAnything应用场景

  • 3D建模与设计:能快速生成复杂的3D模型的“几何骨架”,设计师可以在此基础上专注于细节精修,提升了工作效率和设计速度。

  • 游戏资产生成:游戏设计师可以用它快速生成各种游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具,由AI自动进行优化调整,无缝集成到物理引擎中。

  • 用户生成内容(UGC):框架支持从文本或图像输入生成3D内容,用户可以轻松编辑生成结果,为游戏中的UGC提供了新的可能性。

  • 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,可以快速生成逼真的3D对象,增强用户体验。

项目链接

项目官网:https://primitiveanything.github.io/

Github仓库:https://github.com/PrimitiveAnything/PrimitiveAnything- 

HuggingFace模型库:https://huggingface.co/hyz317/PrimitiveAnything

arXiv技术论文:https://arxiv.org/pdf/2505.04622

收藏
最新工具
GridType
GridType

一款网格化字体设计工具。它让你生成不同类型的网格,在网格里画字体...

Solitaire Bliss
Solitaire Bliss

一个免费、无限次数的在线单人纸牌游戏网站,主要玩经典单人纸牌游戏...

TalenCat
TalenCat

一家提供在线简历制作工具的公司,主要产品TalenCat CV ...

BoardGameArena
BoardGameArena

简称BGA,是一个专注于在线桌游的平台,它通过将传统的桌面游戏数...

Dogod.io
Dogod.io

一款浏览器多人在线实时对战游戏,主题是“狗狗抡棒子”,画风魔性搞...

Drive Mad
Drive Mad

Martin Magni 开发的热门在线驾驶游戏。玩家需要驾驶车...

Fugue
Fugue

icons8旗下的免版税音乐下载网站,音乐可免费用于非商用场景...

PlayClassic Games
PlayClassic Games

PlayClassic Games 是一个能让你直接在浏览器里玩...

Modelfy 3D
Modelfy 3D

一个能把2D图片快速变成高质量3D模型的工具,生成的模型最多能有...

DryVocal
DryVocal

一款专业音频处理工具,主要用于从复杂音频中提取和增强人声,特别适...