微软MineWorld:基于《我的世界》的实时开源交互式世界模型

MineWorld是什么?

MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.jpg

MineWorld技术特点

  • 视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。

  • 并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。

  • 输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。

  • 评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。

MineWorld应用

  • 具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。

  • 强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。

  • 交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。

MineWorld使用方式

  • Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。

  • 本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.webp

MineWorld适用范围与限制

适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。

限制:

  • 无法生成其他视频领域的结果(如互联网视频)。

  • 生成的视频分辨率有限,可能导致细节信息丢失。

  • 模型可能继承训练数据中的偏差、错误或遗漏。

  • 需要进一步测试和验证,才能考虑在商业或现实场景中应用。

MineWorld安装使用

1. 环境配置:

  • 克隆仓库:

git clone https://github.com/microsoft/mineworld.git
cd mineworld
  • 创建并激活 Conda 环境:

conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
  • 推荐使用高性能 GPU(如 A100 或 H100)进行推理。

2. 下载预训练模型:

  • 下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。

  • 数据结构如下:

├── checkpoints
│   ├── 300M_16f.ckpt
│   ├── 700M_16f.ckpt
│   ├── 700M_32f.ckpt
│   ├── 1200M_16f.ckpt
│   └── 1200M_32f.ckpt
│   └── vae
│       ├── config.json
│       └── vae.ckpt
├── validation
│   └── validation.zip
└── gradio_scene
├── scene.mp4
└── scene.jsonl

3. 运行 Web Demo:

  • 使用以下命令启动 Web Demo:

python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
  • 访问本地或公共 URL,通过网页进行交互。

  • 可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。

4. 本地推理:

  • 使用以下命令进行本地推理:

python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
  • 计算评估指标:

bash scripts/setup_metrics.sh
bash scripts/compute_metrics.sh

github:https://github.com/microsoft/MineWorld

收藏
最新工具
Huobao Drama火宝短剧
Huobao Drama火宝短剧

chatfire-AI 团队做的一个开源一站式AI短剧自动化生成...

啦啦爱
啦啦爱

一个在线高质量音轨分离工具,专门把歌曲里的人声和各种乐器分开。它...

Dokie AI
Dokie AI

一个AI生成PPT的工具,主要给商务用。你把文档传上去,填好要求...

Formy3D
Formy3D

一个免费的在线3D模型生成器,利用AI技术,能快速把文字或图片变...

SVGViewer
SVGViewer

简单好用的在线SVG查看工具,用户将SVG代码粘贴到编辑器或上传...

AniKuku
AniKuku

Ullr AI Lab出的动画分镜工具,主要把剧本做成动态漫画和...

ZOPIA AI
ZOPIA AI

AI短剧、漫剧创作Agent,用了多智能体协作和画布式工作流,定...

纳米漫剧流水线
纳米漫剧流水线

360做的国内第一个工业级AI漫剧智能体生产平台,纳米漫剧流水线...

01Agent
01Agent

一个能把生成、排版、编辑、发布一次做完的AI图文创作智能体,主要...

MoltBook
MoltBook

全球第一个给AI智能体做的社交网络,它仿Reddit 的结构,让...