Mobile-Agent-v2: 强大的移动设备操作助手

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2,一款通过多智能体协作实现有效导航的移动设备操作助手,它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能,让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机,从而执行各种任务。

MobileAgent_-Mobile-Agent_-The-Powerful-Mobile-Devic_---github.jpg

Mobile-Agent-v2背景 

传统上,移动设备操作任务在多任务处理方面存在不足,这主要是由于当前多模式 LLMs (MLLM) 中导航和焦点管理的限制。这种限制的后果包括长序列和混合数据格式的性能下降,使得任务进度和焦点内容的有效导航特别具有挑战性。基于 MLLM 的代理的出现,通过工具调用来增强 MLLM 的扩展功能,带来了新颖的解决方案,但它们无法解决移动设备操作中固有的导航问题。

而Mobile-Agent-v基于多Agent架构的纯视觉解决方案,具有更强的任务分解、跨应用操作、多语言能力。

Mobile-Agent-v2架构和方法论

Mobile-Agent-v2 引入了由三个专门代理组成的多代理系统:规划代理、决策代理和反射代理。每个代理都扮演着不同的角色,共同增强导航和决策过程:

规划代理:该代理通过将这些历史总结并压缩为可管理的纯文本任务进度来解决冗长操作历史的复杂性。该任务进度移交给决策代理,通过减少上下文长度来促进更轻松的导航和决策。

决策代理:决策代理在视觉感知模块内运行,处理浓缩的任务进度并做出明智的操作决策。它负责用相关的焦点内容更新内存单元,以便将来的步骤参考。此功能确保代理可以根据过去的屏幕保持准确的焦点上下文。

反射代理:为了管理和纠正潜在的错误操作,反射代理会相对于预期结果评估每个操作的结果。通过分析操作前后的屏幕变化,对错误和无效操作进行识别、分类和响应,从而增强任务执行的可靠性。

Mobile-Agent-v2.jpg

Mobile-Agent-v2场景应用

搜索和购买商品:在购物应用中自动搜索商品、添加到购物车并完成购买。

邮件发送:在 Gmail 中自动填写和发送邮件。

导航:在 Google Maps 中自动进行导航操作。

视频观看:在 YouTube 中搜索并评论特定视频。

相比Mobile-Agent:依赖单一代理执行任务。Mobile-Agent-v2:引入了多代理协作架构,通过多个代理协同工作,实现更高效的导航和任务执行。

实验结果表明,相对于之前的移动代理架构有了实质性的改进。 Mobile-Agent-v2 的任务完成率提高了 30% 以上,凸显了多代理协作的功效。涉及多步骤和交错模式的任务可以从新架构中受益匪浅,因为它可以有效地导航和管理移动设备操作的复杂性。

Mobile-Agent-v2论文:https://arxiv.org/abs/2406.01014

Mobile-Agent-v2代码:https://github.com/X-PLUG/MobileAgent

Modelscope-agent:https://github.com/modelscope/modelscope-agent

收藏

相关文章

最新工具
表答AI
表答AI

一款能抓取网页内容并能情感分析的数据分析产品,并把采集分析过程自...

Recaster AI
Recaster AI

通过导入产品图像或数据,生成定制的SEO内容,支持从Shopif...

ScanPDF
ScanPDF

一个能够让PDF看起来就像是扫描件一样的在线免费工具。只需点击鼠...

SkylineWebCams
SkylineWebCams

在美洲、欧洲、亚洲、非洲及大洋洲59个国家,提供全球五大洲实时高...

Ezgif
Ezgif

一个简单、免费的在线 GIF 制作工具和基础动画图像编辑工具集,...

BuildCores
BuildCores

一款 3D 电脑组装模拟软件,能帮助用户构建和配置 PC 硬件,...

PdfZap
PdfZap

免费的在线PDF批量压缩处理工具,所有文件处理都在浏览器本地完成...

Hailuo Video Agent
Hailuo Video Agent

MiniMax(稀宇科技)推出的视频制作​Agent。智能生成视...

纸由我PaperMe
纸由我PaperMe

“纸由我PaperMe”是一个免费的在线纸张模板定制平台。用户可...

腾讯乐享知识库
腾讯乐享知识库

腾讯推出的一款企业智能知识库管理工具,主要帮助企业搭建自己的知识...