SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat 是斯坦福大学和谷歌联合开发的开源 3D 场景理解工具,主要让 3D 高斯模型听懂人类语言指令,实现从文字到 3D 场景的转换。

SceneSplat:斯坦福大学和谷歌联合开发的开源3D场景理解工具

SceneSplat技术原理

  • 端到端视觉语言预训练架构:通过同时学习语言描述和对应的 3D 场景,让模型听懂自然语言指令并转化成 3D 场景。比如输入“把书架放在靠窗的墙边”,模型能自动识别关键信息并准确放到三维空间里。

  • 跨模态特征对齐:把 3D 高斯表示和视觉语言模型结合,通过多尺度特征提取和跨模态注意力机制,提升对复杂语言指令的理解能力。

  • 自监督学习方案:能从未标记的场景里学到更多 3D 特征。

SceneSplat数据集

  • SceneSplat - 7K:首个室内场景大规模 3DGS 数据集,有 7916 个场景,来自 ScanNet 和 Matterport3D 等七个现有数据集。生成这个数据集大约需要在 L4 GPU 上运行 150 天。

  • SceneSplat - 49K:包含多种来源的室内外场景,是目前最全的开源数据集,有复杂且高质量的完整场景级别 3DGS 重建内容,能推动可泛化 3DGS 场景理解发展。

SceneSplat优势与特点

  • 集成语义理解:首次在 3D 高斯模型里实现语义理解应用,突破了传统 3D 图形系统处理语义的局限。

  • 原生运行在 3DGS 上:是首个能在 3DGS 上直接运行的大规模 3D 室内场景理解方法,避免了传统方法数据转换时的信息损失和计算延迟。

  • 高效泛化能力:在开放词汇和语义分割测试中达到了当前最优效果。

SceneSplat应用场景

  • AR/VR:能实时处理 3D 点云,用自然语言回答问题并精准定位,让 AR/VR 交互更自然。

  • 自动驾驶:帮自动驾驶系统更好理解复杂 3D 环境,提高决策准确性和安全性。

  • 智能机器人:让机器人听懂人类指令,更精准完成任务。

  • 3D 游戏开发:通过自然语言指令快速生成复杂 3D 环境,提升开发效率和游戏世界的动态生成能力。

相关资源

  • 论文链接:https://arxiv.org/abs/2503.18052

  • 项目主页:https://unique1i.github.io/SceneSplat_webpage/

  • 数据集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k


收藏
最新工具
去AIGC
去AIGC

一个AI文本人性化处理平台。它用自研引擎深度改写AI生成的内容,...

Logo.surf
Logo.surf

一个免费的可以把文字转成Logo和网站ICO图标的在线工具,你只...

SP-MangaEditor
SP-MangaEditor

一款免费的漫画编辑工具。它把 AI 画图和专业排版放在一起,可以...

MangaMaker
MangaMaker

一个用HTML、CSS 和 JavaScript做的轻量漫画制作...

TapNow AI
TapNow AI

一个专门帮电商、广告、电影和短视频行业做图片和视频的AI视觉创作...

Kimi Claw
Kimi Claw

月之暗面推出的云端AI智能体服务。它基于开源框架 OpenCla...

Code Wiki
Code Wiki

谷歌推出的一个 AI驱动的代码文档工具,用来解决软件开发里一直有...

Situation Monitor
Situation Monitor

一个做信息聚合的开源仪表盘工具,它把全球实时资讯、金融行情、地缘...

AIVideomaker AI
AIVideomaker AI

操作简单的AI视频生成工具,不用啥经验,想快速做短视频、试试创意...

Myclaw AI
Myclaw AI

一个OpenClaw托管平台。你不用折腾 Node.js 环境,...