微软MineWorld:基于《我的世界》的实时开源交互式世界模型

MineWorld是什么?

MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.jpg

MineWorld技术特点

  • 视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。

  • 并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。

  • 输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。

  • 评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。

MineWorld应用

  • 具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。

  • 强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。

  • 交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。

MineWorld使用方式

  • Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。

  • 本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.webp

MineWorld适用范围与限制

适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。

限制:

  • 无法生成其他视频领域的结果(如互联网视频)。

  • 生成的视频分辨率有限,可能导致细节信息丢失。

  • 模型可能继承训练数据中的偏差、错误或遗漏。

  • 需要进一步测试和验证,才能考虑在商业或现实场景中应用。

MineWorld安装使用

1. 环境配置:

  • 克隆仓库:

git clone https://github.com/microsoft/mineworld.git
cd mineworld
  • 创建并激活 Conda 环境:

conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
  • 推荐使用高性能 GPU(如 A100 或 H100)进行推理。

2. 下载预训练模型:

  • 下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。

  • 数据结构如下:

├── checkpoints
│   ├── 300M_16f.ckpt
│   ├── 700M_16f.ckpt
│   ├── 700M_32f.ckpt
│   ├── 1200M_16f.ckpt
│   └── 1200M_32f.ckpt
│   └── vae
│       ├── config.json
│       └── vae.ckpt
├── validation
│   └── validation.zip
└── gradio_scene
├── scene.mp4
└── scene.jsonl

3. 运行 Web Demo:

  • 使用以下命令启动 Web Demo:

python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
  • 访问本地或公共 URL,通过网页进行交互。

  • 可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。

4. 本地推理:

  • 使用以下命令进行本地推理:

python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
  • 计算评估指标:

bash scripts/setup_metrics.sh
bash scripts/compute_metrics.sh

github:https://github.com/microsoft/MineWorld

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...