Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架

北京大学和中国人民大学的研究团队在人形机器人动作生成方面取得了重要进展。他们开发了一个名为 Being-M0 的通用动作生成框架,并创建了首个规模达百万级的动作生成数据集 MotionLib。这个数据集通过创新的数据处理流程和详细的标注方法,提取出高质量的动作数据,支持多种数据形式。研究结果表明,利用大量数据和强大模型可以有效提升动作生成效果。团队还提出了 MotionBook 这种新的动作编码方法,进一步优化了动作生成效果。此外,他们通过结合优化和学习的方法,将人体动作高效地应用到多种人形机器人上,为人形机器人的发展提供了有力支持。

Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架.webp

数据集 MotionLib

  • 规模与标注:MotionLib 是业界首个百万规模的动作生成数据集,包含超过120万段动作序列,并配有分层且详细的文本标注。该数据集通过系统性地从公开数据集和在线平台收集超过2000万段人体动作视频,并开发了一套创新的数据处理流水线。

  • 数据优化:为提升数据质量,团队使用预训练模型进行2D人体关键点估计,并通过置信度阈值筛选,再利用先进模型生成高精度3D关键点数据。此外,还训练了基于强化学习的策略来优化原始动作,使其更符合物理规律。

动作编码方法 MotionBook

  • 二维无查找量化:提出 MotionBook,将动作序列建模为单通道二维“动作图像”,分别在时间轴和关节轴构建独立编码空间,完整保留运动的多维结构特征。这种方法显著扩展了动作编码器的容量,无需查找对应token,提升了动作表示的效率。

模型 Being-M0

  • 性能与规模效应:基于 MotionLib 和 MotionBook,Being-M0 展现了显著的规模效应,验证了“大数据+大模型”在动作生成领域的技术可行性。在同等数据条件下,模型容量与生成质量呈显著正相关,13B参数的LLaMA-2模型相较700M参数的GPT2,在动作多样性和语义对齐精度等核心指标上均实现突破。

  • 跨平台动作迁移:创新融合优化与学习方法,实现了动作数据向多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

Being-M0:具备数据、模型协同特性的人形机器人通用动作生成框架.webp

项目链接

项目地址:https://beingbeyond.github.io/Being-M0/

论文链接:https://arxiv.org/abs/2410.03311

Github:https://github.com/BeingBeyond/Being-M0

收藏
最新工具
DrawtoVideo
DrawtoVideo

一款能把手绘草图变成动画视频的AI工具,主打快速出片、智能识别草...

VariFlight Map
VariFlight Map

友科技推出的航线查询工具,它能查全球航线,支持按出发机场、到达机...

StableAvatar
StableAvatar

复旦大学、微软亚洲研究院和西安交通大学等机构的研究人员开发的一个...

Photodot AI
Photodot AI

一个在线修图工具,不用下载安装,打开网页就能用。你直接用文字告诉...

Theajack
Theajack

一个通过打字发射导弹击落敌机的游戏,帮助你在玩的过程中练习汉字拼...

CreBee
CreBee

一款短视频矩阵运营工具,支持包括抖音、快手、小红书等主流社交平台...

Veltos Ai
Veltos Ai

一个能通过自然语言生成3D内容的创作平台,用户用日常语言描述想法...

VibeScan
VibeScan

一款AI代码扫描工具,能检测代码(包括 AI 生成的代码)中的安...

Typing Words
Typing Words

一款主打“打字+背单词”结合的网页端英语学习工具,它有两种练习模...

Hotkey Cheatsheet
Hotkey Cheatsheet

“快捷键备忘录”,主要提供了众多软件和系统的快捷键速查信息,通过...