SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat 是斯坦福大学和谷歌联合开发的开源 3D 场景理解工具,主要让 3D 高斯模型听懂人类语言指令,实现从文字到 3D 场景的转换。

SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat技术原理

  • 端到端视觉语言预训练架构:通过同时学习语言描述和对应的 3D 场景,让模型听懂自然语言指令并转化成 3D 场景。比如输入“把书架放在靠窗的墙边”,模型能自动识别关键信息并准确放到三维空间里。

  • 跨模态特征对齐:把 3D 高斯表示和视觉语言模型结合,通过多尺度特征提取和跨模态注意力机制,提升对复杂语言指令的理解能力。

  • 自监督学习方案:能从未标记的场景里学到更多 3D 特征。

SceneSplat数据集

  • SceneSplat - 7K:首个室内场景大规模 3DGS 数据集,有 7916 个场景,来自 ScanNet 和 Matterport3D 等七个现有数据集。生成这个数据集大约需要在 L4 GPU 上运行 150 天。

  • SceneSplat - 49K:包含多种来源的室内外场景,是目前最全的开源数据集,有复杂且高质量的完整场景级别 3DGS 重建内容,能推动可泛化 3DGS 场景理解发展。

SceneSplat优势与特点

  • 集成语义理解:首次在 3D 高斯模型里实现语义理解应用,突破了传统 3D 图形系统处理语义的局限。

  • 原生运行在 3DGS 上:是首个能在 3DGS 上直接运行的大规模 3D 室内场景理解方法,避免了传统方法数据转换时的信息损失和计算延迟。

  • 高效泛化能力:在开放词汇和语义分割测试中达到了当前最优效果。

SceneSplat应用场景

  • AR/VR:能实时处理 3D 点云,用自然语言回答问题并精准定位,让 AR/VR 交互更自然。

  • 自动驾驶:帮自动驾驶系统更好理解复杂 3D 环境,提高决策准确性和安全性。

  • 智能机器人:让机器人听懂人类指令,更精准完成任务。

  • 3D 游戏开发:通过自然语言指令快速生成复杂 3D 环境,提升开发效率和游戏世界的动态生成能力。

相关资源

  • 论文链接:https://arxiv.org/abs/2503.18052

  • 项目主页:https://unique1i.github.io/SceneSplat_webpage/

  • 数据集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k


收藏
最新工具
AlphaShop
AlphaShop

阿里巴巴旗下1688针对跨境从业者推出了一款AI工具,中文名叫“...

千问AI
千问AI

阿里用通义千问大模型做的AI对话助手,主打“会聊天、能办事”,是...

AI PPT Maker
AI PPT Maker

免费的在线AI PPT工具,通过ChatGPT和DeepSeek...

Worthsee
Worthsee

免费的在线音频编辑工具箱,要提供音频格式转换、裁剪、升降调等功能...

快制图表
快制图表

小白也能轻松上手的图表与报表制作神器,能做饼图、折线图等常见图表...

EzRemove AI
EzRemove AI

一个在线的图片和视频处理工具,主要用来抠图去背景、去水印、去掉画...

A Real Me
A Real Me

一个主打“有趣+自我探索”的免费测评平台,包括性格、情商、智商、...

Music Tag Web
Music Tag Web

一款开源的 Web 音乐标签编辑器,能直接编辑服务器或本机上的音...

Planner 5D
Planner 5D

一款面向大众的室内外设计与户型规划工具,支持2D/3D编辑与VR...

ACRCloud
ACRCloud

一个面向企业的音频自动内容识别平台,通过靠音频指纹和元数据来查内...