Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架

北京大学和中国人民大学的研究团队在人形机器人动作生成方面取得了重要进展。他们开发了一个名为 Being-M0 的通用动作生成框架,并创建了首个规模达百万级的动作生成数据集 MotionLib。这个数据集通过创新的数据处理流程和详细的标注方法,提取出高质量的动作数据,支持多种数据形式。研究结果表明,利用大量数据和强大模型可以有效提升动作生成效果。团队还提出了 MotionBook 这种新的动作编码方法,进一步优化了动作生成效果。此外,他们通过结合优化和学习的方法,将人体动作高效地应用到多种人形机器人上,为人形机器人的发展提供了有力支持。

Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架.webp

数据集 MotionLib

  • 规模与标注:MotionLib 是业界首个百万规模的动作生成数据集,包含超过120万段动作序列,并配有分层且详细的文本标注。该数据集通过系统性地从公开数据集和在线平台收集超过2000万段人体动作视频,并开发了一套创新的数据处理流水线。

  • 数据优化:为提升数据质量,团队使用预训练模型进行2D人体关键点估计,并通过置信度阈值筛选,再利用先进模型生成高精度3D关键点数据。此外,还训练了基于强化学习的策略来优化原始动作,使其更符合物理规律。

动作编码方法 MotionBook

  • 二维无查找量化:提出 MotionBook,将动作序列建模为单通道二维“动作图像”,分别在时间轴和关节轴构建独立编码空间,完整保留运动的多维结构特征。这种方法显著扩展了动作编码器的容量,无需查找对应token,提升了动作表示的效率。

模型 Being-M0

  • 性能与规模效应:基于 MotionLib 和 MotionBook,Being-M0 展现了显著的规模效应,验证了“大数据+大模型”在动作生成领域的技术可行性。在同等数据条件下,模型容量与生成质量呈显著正相关,13B参数的LLaMA-2模型相较700M参数的GPT2,在动作多样性和语义对齐精度等核心指标上均实现突破。

  • 跨平台动作迁移:创新融合优化与学习方法,实现了动作数据向多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架.webp

项目链接

项目地址:https://beingbeyond.github.io/Being-M0/

论文链接:https://arxiv.org/abs/2410.03311

Github:https://github.com/BeingBeyond/Being-M0

收藏
最新工具
GridType
GridType

一款网格化字体设计工具。它让你生成不同类型的网格,在网格里画字体...

Solitaire Bliss
Solitaire Bliss

一个免费、无限次数的在线单人纸牌游戏网站,主要玩经典单人纸牌游戏...

TalenCat
TalenCat

一家提供在线简历制作工具的公司,主要产品TalenCat CV ...

BoardGameArena
BoardGameArena

简称BGA,是一个专注于在线桌游的平台,它通过将传统的桌面游戏数...

Dogod.io
Dogod.io

一款浏览器多人在线实时对战游戏,主题是“狗狗抡棒子”,画风魔性搞...

Drive Mad
Drive Mad

Martin Magni 开发的热门在线驾驶游戏。玩家需要驾驶车...

Fugue
Fugue

icons8旗下的免版税音乐下载网站,音乐可免费用于非商用场景...

PlayClassic Games
PlayClassic Games

PlayClassic Games 是一个能让你直接在浏览器里玩...

Modelfy 3D
Modelfy 3D

一个能把2D图片快速变成高质量3D模型的工具,生成的模型最多能有...

DryVocal
DryVocal

一款专业音频处理工具,主要用于从复杂音频中提取和增强人声,特别适...