PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架

PrimitiveAnything是什么?

PrimitiveAnything是腾讯人工智能平台部(aiPD)和清华大学联合开发的新型3D形状生成框架。它能把复杂的 3D 形状拆成简单的部件,再重新组合成完整的形状。这个工具生成的模型质量高,能用不同的方式创作,还方便存储和编辑。它用了一种清晰的参数化方法和自回归架构,确保训练过程稳定、准确。它支持从文本或图片生成 3D 内容,还能灵活添加新的部件类型,适应多种表示方式。

PrimitiveAnything:腾讯AIPD和清华大学联合开发的新型3D形状生成框架.webp

PrimitiveAnything主要功能

  • 高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的直观理解。

  • 多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。

  • 高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。

  • 自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。

  • 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。

  • 几何保真度与语义一致性:在生成过程中,保持了高几何保真度,能生成符合人类认知的语义分解结果。

  • 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。

PrimitiveAnything主要功能.webp

技术原理

  • 无歧义的参数化方案:使用多种类型的基元(如立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状,为解决参数化中固有的歧义性,研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。

  • 自回归变换器架构:采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。为建模基元属性之间的依赖关系,使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性,捕捉了基元属性之间的自然相关性,与人类组装逻辑相符。

  • 自回归生成流程:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel - Softmax(用于可微采样),直到生成序列结束标记。

PrimitiveAnything技术原理.jpg

性能表现

在涵盖家具、交通工具、建筑等12个类别的测试集上,PrimitiveAnything展现出惊人性能。例如在倒角距离(CD)指标上,传统方法为0.82,现有SOTA为0.45,而PrimitiveAnything达到0.21;在体素IoU指标上,传统方法为68%,现有SOTA为75%,PrimitiveAnything为89% ;在分割一致性(SC)指标上,传统方法为0.63,现有SOTA为0.71,PrimitiveAnything为0.92;在存储压缩率上,传统方法为1x,现有SOTA为3x,PrimitiveAnything达到15x。更值得关注的是其跨模态生成能力,在文本到3D的生成任务中,系统可以准确理解“带有弧形靠背的木质餐椅”这类复杂描述,生成符合语义的基元组合结构。

PrimitiveAnything应用场景

  • 3D建模与设计:能快速生成复杂的3D模型的“几何骨架”,设计师可以在此基础上专注于细节精修,提升了工作效率和设计速度。

  • 游戏资产生成:游戏设计师可以用它快速生成各种游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具,由AI自动进行优化调整,无缝集成到物理引擎中。

  • 用户生成内容(UGC):框架支持从文本或图像输入生成3D内容,用户可以轻松编辑生成结果,为游戏中的UGC提供了新的可能性。

  • 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,可以快速生成逼真的3D对象,增强用户体验。

项目链接

项目官网:https://primitiveanything.github.io/

Github仓库:https://github.com/PrimitiveAnything/PrimitiveAnything- 

HuggingFace模型库:https://huggingface.co/hyz317/PrimitiveAnything

arXiv技术论文:https://arxiv.org/pdf/2505.04622

收藏
最新工具
Aithor
Aithor

一款AI驱动的研究,AI写作助手,可以帮助用户生成高质量的学术和...

CodeBuddy
CodeBuddy

腾讯云代码助手,AI时代的智能编程伙伴,支持代码生成、补全、诊断...

FalcoCut
FalcoCut

一款功能非常实用的多语言本地化AI视频生成与编辑工具,支持视频翻...

Cloud Studio
Cloud Studio

腾讯云推出的在线集成开发环境(IDE),让开发者不用在本地安装软...

AI外贸员Zoe
AI外贸员Zoe

百型智能推出的国内首个专注于外贸行业的垂直智能Agent,能够根...

AnimeShorts
AnimeShorts

一个AI漫画与动画创作平台,提供包括角色创建、AI 剧本优化、动...

DeckSpeed
DeckSpeed

一款由00后创业者严訸团队开发的、基于Agent 架构,融合大模...

PulpMiner
PulpMiner

一款将网页数据实时转化为JSON API的工具,用户粘贴网页 U...

Pfp.Fm
Pfp.Fm

一款基于 AI的头像艺术风格生成器,通过AI将用户上传的照片转化...

天罡智算
天罡智算

一个智能算力交易平台,专注于解决GPU资源错配问题,通过智能匹配...