Alter3:GPT-4 为人形机器人运动和对话控制提供动力

东京大学的科学家将 Openai 的 GPT-4 大型语言模型 (LLM) 与人形机器人联系起来。正如一篇新发表的论文所解释的那样,这个名为Alter3的机器人可以很好地理解对话提示,从而控制机器人的运动和手势。

Alter3项目地址:https://tnoinkwms.github.io/ALTER-LLM/

Alter3:GPT-4 为人形机器人运动和对话控制提供动力.jpg

东京大学团队演示了 Alter3 在用自然语言指导时采用自拍、弹吉他或假装成鬼魂等姿势,而无需对每个动作进行显式编程。GPT-4 也为 ChatGPT 提供动力,它能够理解人们用他们喜欢的任何术语描述的内容、做出实物回应或生成与 DALL-E 3 相关的图像的方式大致相同。

科学家们的这一突破弥合了与物理机器人的对话交互的差距,这通常需要使用专门的基于硬件的代码进行精细的运动控制。研究人员将高级命令转换为Alter3可以执行的指令。机器人可以像人类直观地拾取动作一样学习动作——从基本的洗牌到更协调的动作。用户可以引导 Alter3 的姿势并帮助它区分细微差别,例如不同的舞蹈动作。

这是一种能够使用大型语言模型 (LLM) 生成自发运动的人形机器人,特别是 GPT-4。这一成就是通过将 GPT-4 集成到我们专有的机器人 Alter3 中来实现的,从而有效地将 LLM 与 Alter 的身体运动联系起来。通常,低级机器人控制依赖于硬件,不属于 LLM 语料库的范围,这给基于 LLM 的直接机器人控制带来了挑战。

然而,在像 Alter3 这样的人形机器人的情况下,通过程序代码将人类动作的语言表达映射到机器人的身体上,直接控制是可行的。值得注意的是,这种方法使 Alter3 能够采用各种姿势,例如“自拍”姿势或“假装成幽灵”,并随着时间的推移生成一系列动作,而无需对每个身体部位进行显式编程。

这证明了机器人的零样本学习能力。此外,口头反馈可以调整姿势,无需微调。

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...