Matrix-Game:昆仑万维正式开源的17B+交互式世界基础模型
Matrix-Game是什么?
Matrix-Game是昆仑万维在2025年5月13日正式开源的17B+交互式世界基础模型,也是工业界首个开源的10B+空间智能大模型。
Matrix-Game核心特点
交互式世界生成:Matrix-Game是一个面向游戏世界建模的交互式世界基础模型,用户可以通过简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。
高精度控制:在控制性能上,Matrix-Game可实现“运动”“攻击”等动作高达90%+准确率,在细粒度视角控制下依然保持高精度响应。
多场景泛化能力:Matrix-Game在8大典型Minecraft场景中全面领先,展现出卓越的环境适应性与泛化能力,有潜力泛化到非Minecraft游戏环境。
自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。
系统化评估:提出了统一的GameWorldScore标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。
核心组成部分
Matrix-Game-MC数据集:自主构建的大规模交互世界数据集,包含大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,具备精细的动作注释。
Matrix-Game主模型:基于先进的扩散模型技术,构建了一个从图像到世界的生成框架,能够根据用户的输入生成连贯且可控的互动视频。
GameWorldScore评测体系:从视频的视觉质量、时序质量、动作可控性和物理规则理解四个维度全面量化模型性能,填补了该领域缺乏系统性评测基准的空白。
Matrix-Game技术原理
两阶段训练策略:第一阶段利用大规模无标签的Minecraft游戏视频数据进行预训练,让模型学习环境的基本特征和动态规律;第二阶段用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。
图像到世界建模:以单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。
自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-freeguidance策略,缓解时序漂移和误差累积。
可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态DiffusionTransformer架构,用Classifier-freeguidance策略提升对控制信号的鲁棒响应能力。
Matrix-Game应用场景
虚拟游戏世界快速搭建:通过模型的可控生成能力,可低成本、高效率地创建多样化、结构合理的游戏地图与交互环境,提升关卡设计与任务构建的自由度。
影视与元宇宙内容生产:支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。
具身智能体训练与数据生成:尽管当前模型未直接用于具身智能,但Matrix-Game具备生成大规模交互视频的能力,具备扩展至具身智能体训练与评估的潜力,可以为智能体创建多样复杂的虚拟环境,帮助助其任务执行与推理能力的提升。
Matrix-Game模型优势
细粒度用户交互控制:支持多种细节操作,能根据用户输入准确自然地响应。
高保真视觉与物理一致性:生成结果视觉连贯且遵循物理规律。
多场景泛化能力:对多种 Minecraft 游戏场景有泛化能力,且有向非 Minecraft 游戏环境泛化的潜力。
系统化评估体系:GameWorld Score 标准为模型的客观评估与持续优化提供有力支撑。
项目链接
项目官网:https://matrix-game-homepage.github.io/
GitHub仓库:https://github.com/Skyworkai/Matrix-Game
HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game
技术论文:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf