Matrix-Game:昆仑万维正式开源的17B+交互式世界基础模型

Matrix-Game是什么?

Matrix-Game是昆仑万维在2025年5月13日正式开源的17B+交互式世界基础模型,也是工业界首个开源的10B+空间智能大模型。

screenshot (8).webp

Matrix-Game核心特点

  • 交互式世界生成:Matrix-Game是一个面向游戏世界建模的交互式世界基础模型,用户可以通过简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。

  • 高精度控制:在控制性能上,Matrix-Game可实现“运动”“攻击”等动作高达90%+准确率,在细粒度视角控制下依然保持高精度响应。

  • 多场景泛化能力:Matrix-Game在8大典型Minecraft场景中全面领先,展现出卓越的环境适应性与泛化能力,有潜力泛化到非Minecraft游戏环境。

  • 自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。

  • 系统化评估:提出了统一的GameWorldScore标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。

核心组成部分

  • Matrix-Game-MC数据集:自主构建的大规模交互世界数据集,包含大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,具备精细的动作注释。

  • Matrix-Game主模型:基于先进的扩散模型技术,构建了一个从图像到世界的生成框架,能够根据用户的输入生成连贯且可控的互动视频。

  • GameWorldScore评测体系:从视频的视觉质量、时序质量、动作可控性和物理规则理解四个维度全面量化模型性能,填补了该领域缺乏系统性评测基准的空白。

Matrix-Game技术原理

  • 两阶段训练策略:第一阶段利用大规模无标签的Minecraft游戏视频数据进行预训练,让模型学习环境的基本特征和动态规律;第二阶段用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。

  • 图像到世界建模:以单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。

  • 自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-freeguidance策略,缓解时序漂移和误差累积。

  • 可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态DiffusionTransformer架构,用Classifier-freeguidance策略提升对控制信号的鲁棒响应能力。

Matrix-Game技术原理.jpg

Matrix-Game应用场景

  • 虚拟游戏世界快速搭建:通过模型的可控生成能力,可低成本、高效率地创建多样化、结构合理的游戏地图与交互环境,提升关卡设计与任务构建的自由度。

  • 影视与元宇宙内容生产:支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。

  • 具身智能体训练与数据生成:尽管当前模型未直接用于具身智能,但Matrix-Game具备生成大规模交互视频的能力,具备扩展至具身智能体训练与评估的潜力,可以为智能体创建多样复杂的虚拟环境,帮助助其任务执行与推理能力的提升。

Matrix-Game模型优势

  • 细粒度用户交互控制:支持多种细节操作,能根据用户输入准确自然地响应。

  • 高保真视觉与物理一致性:生成结果视觉连贯且遵循物理规律。

  • 多场景泛化能力:对多种 Minecraft 游戏场景有泛化能力,且有向非 Minecraft 游戏环境泛化的潜力。

  • 系统化评估体系:GameWorld Score 标准为模型的客观评估与持续优化提供有力支撑。

项目链接

项目官网:https://matrix-game-homepage.github.io/

GitHub仓库:https://github.com/Skyworkai/Matrix-Game

HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game

技术论文:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

收藏
最新工具
公文宝
公文宝

一个给体制内工作人员用的AI写作工具,能帮着快速写出各类文书初稿...

CheckiDay
CheckiDay

一个提供全球各种节日和特殊日子信息的网站,CheckiDay通过...

可赞AI
可赞AI

一款AI办公可视化工具,能快速把文字变成图表、图例、脑图等内容。...

PixiEditor
PixiEditor

一款免费开源的的2D图形编辑软件。它能用来画像素风图案、普通绘画...

IMFDB
IMFDB

互联网电影枪械数据库,是2007年成立的社区维基平台,由全球枪械...

YORG.io
YORG.io

一款以僵尸生存为题材的策略塔防游戏,游戏目标就是建立并升级基地,...

Style3D AI
Style3D AI

一个给设计师、打版师和小品牌用的AI时尚工具,能帮用户搞定从画设...

ToonComposer
ToonComposer

腾讯推出的AI自动上色和生成动画工具,它能将动画制作里“补帧”和...

YUME.LY
YUME.LY

一个梦境的记录与分享网站,用户能记下自己遇到的奇怪、荒诞或奇幻的...

CXTVLive
CXTVLive

一个能免费看全球电视频道和实时摄像头的网站。CXTVLive上面...