微软MineWorld:基于《我的世界》的实时开源交互式世界模型

MineWorld是什么?

MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.jpg

MineWorld技术特点

  • 视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。

  • 并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。

  • 输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。

  • 评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。

MineWorld应用

  • 具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。

  • 强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。

  • 交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。

MineWorld使用方式

  • Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。

  • 本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.webp

MineWorld适用范围与限制

适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。

限制:

  • 无法生成其他视频领域的结果(如互联网视频)。

  • 生成的视频分辨率有限,可能导致细节信息丢失。

  • 模型可能继承训练数据中的偏差、错误或遗漏。

  • 需要进一步测试和验证,才能考虑在商业或现实场景中应用。

MineWorld安装使用

1. 环境配置:

  • 克隆仓库:

git clone https://github.com/microsoft/mineworld.git
cd mineworld
  • 创建并激活 Conda 环境:

conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
  • 推荐使用高性能 GPU(如 A100 或 H100)进行推理。

2. 下载预训练模型:

  • 下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。

  • 数据结构如下:

├── checkpoints
│   ├── 300M_16f.ckpt
│   ├── 700M_16f.ckpt
│   ├── 700M_32f.ckpt
│   ├── 1200M_16f.ckpt
│   └── 1200M_32f.ckpt
│   └── vae
│       ├── config.json
│       └── vae.ckpt
├── validation
│   └── validation.zip
└── gradio_scene
├── scene.mp4
└── scene.jsonl

3. 运行 Web Demo:

  • 使用以下命令启动 Web Demo:

python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
  • 访问本地或公共 URL,通过网页进行交互。

  • 可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。

4. 本地推理:

  • 使用以下命令进行本地推理:

python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
  • 计算评估指标:

bash scripts/setup_metrics.sh
bash scripts/compute_metrics.sh

github:https://github.com/microsoft/MineWorld

收藏
最新工具
GamePix
GamePix

全球领先的 HTML5 和 WebGL 游戏分发平台。它把各类分...

PixelSquid
PixelSquid

Shutterstock推出的专为平面设计师和Photoshop...

Dos.Zone
Dos.Zone

一个聚合经典DOS游戏的在线游玩平台,游戏种类特别多,有动作、策...

KBHgames
KBHgames

一个老牌免费在线游戏网站,谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI
SoundWise AI

一个完全免费的AI音视频转录工具,能在浏览器里直接把音频和视频转...

Armor Games
Armor Games

全球知名免费在线游戏平台与独立游戏发行商​,ArmorGames...

Social Auto Upload
Social Auto Upload

社交媒体视频一键多平台发布工具​,一站式解决抖音、小红书、视频号...

在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...