PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架

PrimitiveAnything是什么?

PrimitiveAnything是腾讯人工智能平台部(aiPD)和清华大学联合开发的新型3D形状生成框架。它能把复杂的 3D 形状拆成简单的部件,再重新组合成完整的形状。这个工具生成的模型质量高,能用不同的方式创作,还方便存储和编辑。它用了一种清晰的参数化方法和自回归架构,确保训练过程稳定、准确。它支持从文本或图片生成 3D 内容,还能灵活添加新的部件类型,适应多种表示方式。

PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架.webp

PrimitiveAnything主要功能

  • 高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的直观理解。

  • 多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。

  • 高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。

  • 自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。

  • 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。

  • 几何保真度与语义一致性:在生成过程中,保持了高几何保真度,能生成符合人类认知的语义分解结果。

  • 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。

PrimitiveAnything主要功能.webp

技术原理

  • 无歧义的参数化方案:使用多种类型的基元(如立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状,为解决参数化中固有的歧义性,研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。

  • 自回归变换器架构:采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。为建模基元属性之间的依赖关系,使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性,捕捉了基元属性之间的自然相关性,与人类组装逻辑相符。

  • 自回归生成流程:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel - Softmax(用于可微采样),直到生成序列结束标记。

PrimitiveAnything技术原理.jpg

性能表现

在涵盖家具、交通工具、建筑等12个类别的测试集上,PrimitiveAnything展现出惊人性能。例如在倒角距离(CD)指标上,传统方法为0.82,现有SOTA为0.45,而PrimitiveAnything达到0.21;在体素IoU指标上,传统方法为68%,现有SOTA为75%,PrimitiveAnything为89% ;在分割一致性(SC)指标上,传统方法为0.63,现有SOTA为0.71,PrimitiveAnything为0.92;在存储压缩率上,传统方法为1x,现有SOTA为3x,PrimitiveAnything达到15x。更值得关注的是其跨模态生成能力,在文本到3D的生成任务中,系统可以准确理解“带有弧形靠背的木质餐椅”这类复杂描述,生成符合语义的基元组合结构。

PrimitiveAnything应用场景

  • 3D建模与设计:能快速生成复杂的3D模型的“几何骨架”,设计师可以在此基础上专注于细节精修,提升了工作效率和设计速度。

  • 游戏资产生成:游戏设计师可以用它快速生成各种游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具,由AI自动进行优化调整,无缝集成到物理引擎中。

  • 用户生成内容(UGC):框架支持从文本或图像输入生成3D内容,用户可以轻松编辑生成结果,为游戏中的UGC提供了新的可能性。

  • 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,可以快速生成逼真的3D对象,增强用户体验。

项目链接

项目官网:https://primitiveanything.github.io/

Github仓库:https://github.com/PrimitiveAnything/PrimitiveAnything- 

HuggingFace模型库:https://huggingface.co/hyz317/PrimitiveAnything

arXiv技术论文:https://arxiv.org/pdf/2505.04622

收藏
最新工具
可赞AI
可赞AI

一款AI办公可视化工具,能快速把文字变成图表、图例、脑图等内容。...

PixiEditor
PixiEditor

一款免费开源的的2D图形编辑软件。它能用来画像素风图案、普通绘画...

IMFDB
IMFDB

互联网电影枪械数据库,是2007年成立的社区维基平台,由全球枪械...

YORG.io
YORG.io

一款以僵尸生存为题材的策略塔防游戏,游戏目标就是建立并升级基地,...

Style3D AI
Style3D AI

一个给设计师、打版师和小品牌用的AI时尚工具,能帮用户搞定从画设...

ToonComposer
ToonComposer

腾讯推出的AI自动上色和生成动画工具,它能将动画制作里“补帧”和...

YUME.LY
YUME.LY

一个梦境的记录与分享网站,用户能记下自己遇到的奇怪、荒诞或奇幻的...

CXTVLive
CXTVLive

一个能免费看全球电视频道和实时摄像头的网站。CXTVLive上面...

你好星识
你好星识

一个新的AI智能文本工作空间,能把知识库、文档、表格、PPT、录...

Open Lovable
Open Lovable

一个快速转换网站为React/Next.js应用的免费开源工具。...