微软MineWorld:基于《我的世界》的实时开源交互式世界模型

MineWorld是什么?

MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.jpg

MineWorld技术特点

  • 视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。

  • 并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。

  • 输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。

  • 评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。

MineWorld应用

  • 具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。

  • 强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。

  • 交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。

MineWorld使用方式

  • Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。

  • 本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.webp

MineWorld适用范围与限制

适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。

限制:

  • 无法生成其他视频领域的结果(如互联网视频)。

  • 生成的视频分辨率有限,可能导致细节信息丢失。

  • 模型可能继承训练数据中的偏差、错误或遗漏。

  • 需要进一步测试和验证,才能考虑在商业或现实场景中应用。

MineWorld安装使用

1. 环境配置:

  • 克隆仓库:

git clone https://github.com/microsoft/mineworld.git
cd mineworld
  • 创建并激活 Conda 环境:

conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
  • 推荐使用高性能 GPU(如 A100 或 H100)进行推理。

2. 下载预训练模型:

  • 下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。

  • 数据结构如下:

├── checkpoints
│   ├── 300M_16f.ckpt
│   ├── 700M_16f.ckpt
│   ├── 700M_32f.ckpt
│   ├── 1200M_16f.ckpt
│   └── 1200M_32f.ckpt
│   └── vae
│       ├── config.json
│       └── vae.ckpt
├── validation
│   └── validation.zip
└── gradio_scene
├── scene.mp4
└── scene.jsonl

3. 运行 Web Demo:

  • 使用以下命令启动 Web Demo:

python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
  • 访问本地或公共 URL,通过网页进行交互。

  • 可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。

4. 本地推理:

  • 使用以下命令进行本地推理:

python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
  • 计算评估指标:

bash scripts/setup_metrics.sh
bash scripts/compute_metrics.sh

github:https://github.com/microsoft/MineWorld

收藏
最新工具
云知改写
云知改写

一个基于先进深度语义分析、智能 AI 及文本处理技术开发的论文查...

Remove.photos
Remove.photos

一款免费的图片背景去除工具,能 00% 自动在3秒内去除图片背景...

VideoIdeas Ai
VideoIdeas Ai

一个为 YouTube博主量身定制的视频内容生成工具。它能在短时...

OnePPT
OnePPT

一款创新型AIPPT智能生成工具,提供智能写作、PPT生成、模板...

Hugo
Hugo

一个使用 Go 语言开发的开源静态网站生成器,速度快,灵活性高。...

企鹅读伴
企鹅读伴

腾讯SSV数字支教实验室推出的AI阅读教育产品,由腾讯混元大模型...

Krillin AI
Krillin AI

一款本地的视频翻译、配音和语音克隆的工具,适用于哔哩哔哩、小红书...

Lovart AI
Lovart AI

一个全球首个适用于设计目的的自适应设计AI智能体平台,能将创意转...

ByeCode
ByeCode

一个新一代AI无代码开发平台,通过可视化拖拽组件,用户无需编码即...

Genspark AI幻灯片
Genspark AI幻灯片

一款能够快速将如PDF、Excel、Word等数据格式转化为专业...