Matrix-Game:昆仑万维正式开源的17B+交互式世界基础模型

Matrix-Game是什么?

Matrix-Game是昆仑万维在2025年5月13日正式开源的17B+交互式世界基础模型,也是工业界首个开源的10B+空间智能大模型。

screenshot (8).webp

Matrix-Game核心特点

  • 交互式世界生成:Matrix-Game是一个面向游戏世界建模的交互式世界基础模型,用户可以通过简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。

  • 高精度控制:在控制性能上,Matrix-Game可实现“运动”“攻击”等动作高达90%+准确率,在细粒度视角控制下依然保持高精度响应。

  • 多场景泛化能力:Matrix-Game在8大典型Minecraft场景中全面领先,展现出卓越的环境适应性与泛化能力,有潜力泛化到非Minecraft游戏环境。

  • 自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。

  • 系统化评估:提出了统一的GameWorldScore标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。

核心组成部分

  • Matrix-Game-MC数据集:自主构建的大规模交互世界数据集,包含大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,具备精细的动作注释。

  • Matrix-Game主模型:基于先进的扩散模型技术,构建了一个从图像到世界的生成框架,能够根据用户的输入生成连贯且可控的互动视频。

  • GameWorldScore评测体系:从视频的视觉质量、时序质量、动作可控性和物理规则理解四个维度全面量化模型性能,填补了该领域缺乏系统性评测基准的空白。

Matrix-Game技术原理

  • 两阶段训练策略:第一阶段利用大规模无标签的Minecraft游戏视频数据进行预训练,让模型学习环境的基本特征和动态规律;第二阶段用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。

  • 图像到世界建模:以单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。

  • 自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-freeguidance策略,缓解时序漂移和误差累积。

  • 可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态DiffusionTransformer架构,用Classifier-freeguidance策略提升对控制信号的鲁棒响应能力。

Matrix-Game技术原理.jpg

Matrix-Game应用场景

  • 虚拟游戏世界快速搭建:通过模型的可控生成能力,可低成本、高效率地创建多样化、结构合理的游戏地图与交互环境,提升关卡设计与任务构建的自由度。

  • 影视与元宇宙内容生产:支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。

  • 具身智能体训练与数据生成:尽管当前模型未直接用于具身智能,但Matrix-Game具备生成大规模交互视频的能力,具备扩展至具身智能体训练与评估的潜力,可以为智能体创建多样复杂的虚拟环境,帮助助其任务执行与推理能力的提升。

Matrix-Game模型优势

  • 细粒度用户交互控制:支持多种细节操作,能根据用户输入准确自然地响应。

  • 高保真视觉与物理一致性:生成结果视觉连贯且遵循物理规律。

  • 多场景泛化能力:对多种 Minecraft 游戏场景有泛化能力,且有向非 Minecraft 游戏环境泛化的潜力。

  • 系统化评估体系:GameWorld Score 标准为模型的客观评估与持续优化提供有力支撑。

项目链接

项目官网:https://matrix-game-homepage.github.io/

GitHub仓库:https://github.com/Skyworkai/Matrix-Game

HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game

技术论文:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

收藏
最新工具
DDChart
DDChart

在线图表制作工具,能做各类图表,也支持词云图定制。用户输入数据后...

NativeMind
NativeMind

一款开源的本地化AI助手浏览器插件,支持Ollama和WebLL...

Ai表
Ai表

一个将数据快速转化为图表的工具。它支持Excel、CSV等多种图...

Ithy
Ithy

一个AI研究工具,能整合多个顶级AI模型(如ChatGPT、Go...

PagePeek AI
PagePeek AI

一个整合了多种学术工具的智能学术办公套件,包括用于论文写作的 P...

Cello
Cello

一个通过用户推荐助力企业赢得新客户和收入的口碑营销平台,让Saa...

CodeGuide
CodeGuide

一款为AI编码项目打造的文档生成平台,能为各类项目(从Web应用...

AI Graph Maker
AI Graph Maker

一款免费的图表生成工具,支持多种图表类型,可快速将数据转化为直观...

Cluely
Cluely

一款桌面AI助手,它能实时查看屏幕内容和收听音频,不需要用户去主...

蚂蚁AQ
蚂蚁AQ

基于蚂蚁医疗大模型,通过学习超万亿tokens专业医疗数据,提供...