SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat 是斯坦福大学和谷歌联合开发的开源 3D 场景理解工具,主要让 3D 高斯模型听懂人类语言指令,实现从文字到 3D 场景的转换。

SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat技术原理

  • 端到端视觉语言预训练架构:通过同时学习语言描述和对应的 3D 场景,让模型听懂自然语言指令并转化成 3D 场景。比如输入“把书架放在靠窗的墙边”,模型能自动识别关键信息并准确放到三维空间里。

  • 跨模态特征对齐:把 3D 高斯表示和视觉语言模型结合,通过多尺度特征提取和跨模态注意力机制,提升对复杂语言指令的理解能力。

  • 自监督学习方案:能从未标记的场景里学到更多 3D 特征。

SceneSplat数据集

  • SceneSplat - 7K:首个室内场景大规模 3DGS 数据集,有 7916 个场景,来自 ScanNet 和 Matterport3D 等七个现有数据集。生成这个数据集大约需要在 L4 GPU 上运行 150 天。

  • SceneSplat - 49K:包含多种来源的室内外场景,是目前最全的开源数据集,有复杂且高质量的完整场景级别 3DGS 重建内容,能推动可泛化 3DGS 场景理解发展。

SceneSplat优势与特点

  • 集成语义理解:首次在 3D 高斯模型里实现语义理解应用,突破了传统 3D 图形系统处理语义的局限。

  • 原生运行在 3DGS 上:是首个能在 3DGS 上直接运行的大规模 3D 室内场景理解方法,避免了传统方法数据转换时的信息损失和计算延迟。

  • 高效泛化能力:在开放词汇和语义分割测试中达到了当前最优效果。

SceneSplat应用场景

  • AR/VR:能实时处理 3D 点云,用自然语言回答问题并精准定位,让 AR/VR 交互更自然。

  • 自动驾驶:帮自动驾驶系统更好理解复杂 3D 环境,提高决策准确性和安全性。

  • 智能机器人:让机器人听懂人类指令,更精准完成任务。

  • 3D 游戏开发:通过自然语言指令快速生成复杂 3D 环境,提升开发效率和游戏世界的动态生成能力。

相关资源

  • 论文链接:https://arxiv.org/abs/2503.18052

  • 项目主页:https://unique1i.github.io/SceneSplat_webpage/

  • 数据集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k


收藏
最新工具
快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...

MindLuster
MindLuster

中东和北非地区最大的一个免费在线课程平台,和哈佛、斯坦福、麻省理...

ArticleRewriterTool
ArticleRewriterTool

一个免费的在线文章、句子及段落改写工具,用 AI 技术优化内容,...

RetroGames.onl
RetroGames.onl

一个能在线玩复古游戏的游戏平台,直接用浏览器就能免费玩经典游戏机...

Tailornova
Tailornova

一款在线服装设计工具,可以在3D模型上实时预览修改设计,还提供F...

Ubersuggest
Ubersuggest

SEO专家Neil Patel买下后升级的SEO工具,能帮人做关...

比邻AI
比邻AI

一个能跨语言搜索的工具,支持多语言查找和翻译,能自动筛掉假消息和...

BGA
BGA

全称Board Game Arena,全世界最大的桌游平台,和全...

GemDesign
GemDesign

一款AI时代的高保真原型设计工具,能帮用户通过文字或图片快速生成...