Alter3:GPT-4 为人形机器人运动和对话控制提供动力

东京大学的科学家将 Openai 的 GPT-4 大型语言模型 (LLM) 与人形机器人联系起来。正如一篇新发表的论文所解释的那样,这个名为Alter3的机器人可以很好地理解对话提示,从而控制机器人的运动和手势。

Alter3项目地址:https://tnoinkwms.github.io/ALTER-LLM/

Alter3:GPT-4 为人形机器人运动和对话控制提供动力.jpg

东京大学团队演示了 Alter3 在用自然语言指导时采用自拍、弹吉他或假装成鬼魂等姿势,而无需对每个动作进行显式编程。GPT-4 也为 ChatGPT 提供动力,它能够理解人们用他们喜欢的任何术语描述的内容、做出实物回应或生成与 DALL-E 3 相关的图像的方式大致相同。

科学家们的这一突破弥合了与物理机器人的对话交互的差距,这通常需要使用专门的基于硬件的代码进行精细的运动控制。研究人员将高级命令转换为Alter3可以执行的指令。机器人可以像人类直观地拾取动作一样学习动作——从基本的洗牌到更协调的动作。用户可以引导 Alter3 的姿势并帮助它区分细微差别,例如不同的舞蹈动作。

这是一种能够使用大型语言模型 (LLM) 生成自发运动的人形机器人,特别是 GPT-4。这一成就是通过将 GPT-4 集成到我们专有的机器人 Alter3 中来实现的,从而有效地将 LLM 与 Alter 的身体运动联系起来。通常,低级机器人控制依赖于硬件,不属于 LLM 语料库的范围,这给基于 LLM 的直接机器人控制带来了挑战。

然而,在像 Alter3 这样的人形机器人的情况下,通过程序代码将人类动作的语言表达映射到机器人的身体上,直接控制是可行的。值得注意的是,这种方法使 Alter3 能够采用各种姿势,例如“自拍”姿势或“假装成幽灵”,并随着时间的推移生成一系列动作,而无需对每个身体部位进行显式编程。

这证明了机器人的零样本学习能力。此外,口头反馈可以调整姿势,无需微调。

收藏
最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...