Matrix-Game:昆仑万维正式开源的17B+交互式世界基础模型

Matrix-Game是什么?

Matrix-Game是昆仑万维在2025年5月13日正式开源的17B+交互式世界基础模型,也是工业界首个开源的10B+空间智能大模型。

screenshot (8).webp

Matrix-Game核心特点

  • 交互式世界生成:Matrix-Game是一个面向游戏世界建模的交互式世界基础模型,用户可以通过简单的键盘指令、鼠标移动等操作,自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。

  • 高精度控制:在控制性能上,Matrix-Game可实现“运动”“攻击”等动作高达90%+准确率,在细粒度视角控制下依然保持高精度响应。

  • 多场景泛化能力:Matrix-Game在8大典型Minecraft场景中全面领先,展现出卓越的环境适应性与泛化能力,有潜力泛化到非Minecraft游戏环境。

  • 自回归式长视频生成:支持自回归式的长视频生成,实现动作与视角之间的丝滑衔接,确保时间一致性与环境适应性。

  • 系统化评估:提出了统一的GameWorldScore标准,从视频的视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能。

核心组成部分

  • Matrix-Game-MC数据集:自主构建的大规模交互世界数据集,包含大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,具备精细的动作注释。

  • Matrix-Game主模型:基于先进的扩散模型技术,构建了一个从图像到世界的生成框架,能够根据用户的输入生成连贯且可控的互动视频。

  • GameWorldScore评测体系:从视频的视觉质量、时序质量、动作可控性和物理规则理解四个维度全面量化模型性能,填补了该领域缺乏系统性评测基准的空白。

Matrix-Game技术原理

  • 两阶段训练策略:第一阶段利用大规模无标签的Minecraft游戏视频数据进行预训练,让模型学习环境的基本特征和动态规律;第二阶段用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,让模型根据用户的输入生成相应的交互式视频。

  • 图像到世界建模:以单张参考图像作为生成交互式视频的起点,不依赖语言提示,基于视觉信号建模空间几何、物体运动及其物理交互。

  • 自回归式视频生成:支持自回归方式扩展生成长度,每次用前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间上的连贯性。训练中引入随机扰动、随机删除及Classifier-freeguidance策略,缓解时序漂移和误差累积。

  • 可控交互设计:键盘动作用离散token表达,视角移动动作用连续token表达,基于GameFactory的控制模块,融入多模态DiffusionTransformer架构,用Classifier-freeguidance策略提升对控制信号的鲁棒响应能力。

Matrix-Game技术原理.jpg

Matrix-Game应用场景

  • 虚拟游戏世界快速搭建:通过模型的可控生成能力,可低成本、高效率地创建多样化、结构合理的游戏地图与交互环境,提升关卡设计与任务构建的自由度。

  • 影视与元宇宙内容生产:支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。

  • 具身智能体训练与数据生成:尽管当前模型未直接用于具身智能,但Matrix-Game具备生成大规模交互视频的能力,具备扩展至具身智能体训练与评估的潜力,可以为智能体创建多样复杂的虚拟环境,帮助助其任务执行与推理能力的提升。

Matrix-Game模型优势

  • 细粒度用户交互控制:支持多种细节操作,能根据用户输入准确自然地响应。

  • 高保真视觉与物理一致性:生成结果视觉连贯且遵循物理规律。

  • 多场景泛化能力:对多种 Minecraft 游戏场景有泛化能力,且有向非 Minecraft 游戏环境泛化的潜力。

  • 系统化评估体系:GameWorld Score 标准为模型的客观评估与持续优化提供有力支撑。

项目链接

项目官网:https://matrix-game-homepage.github.io/

GitHub仓库:https://github.com/Skyworkai/Matrix-Game

HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game

技术论文:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

收藏
最新工具
Aithor
Aithor

一款AI驱动的研究,AI写作助手,可以帮助用户生成高质量的学术和...

CodeBuddy
CodeBuddy

腾讯云代码助手,AI时代的智能编程伙伴,支持代码生成、补全、诊断...

FalcoCut
FalcoCut

一款功能非常实用的多语言本地化AI视频生成与编辑工具,支持视频翻...

Cloud Studio
Cloud Studio

腾讯云推出的在线集成开发环境(IDE),让开发者不用在本地安装软...

AI外贸员Zoe
AI外贸员Zoe

百型智能推出的国内首个专注于外贸行业的垂直智能Agent,能够根...

AnimeShorts
AnimeShorts

一个AI漫画与动画创作平台,提供包括角色创建、AI 剧本优化、动...

DeckSpeed
DeckSpeed

一款由00后创业者严訸团队开发的、基于Agent 架构,融合大模...

PulpMiner
PulpMiner

一款将网页数据实时转化为JSON API的工具,用户粘贴网页 U...

Pfp.Fm
Pfp.Fm

一款基于 AI的头像艺术风格生成器,通过AI将用户上传的照片转化...

天罡智算
天罡智算

一个智能算力交易平台,专注于解决GPU资源错配问题,通过智能匹配...