GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体

美团和浙江大学合作开发了GUIRoboTron-Speech,这是一个能用语音指令和设备屏幕截图直接做决策的GUI智能体。它能让用户通过语音和设备屏幕截图来操控计算机,避免了传统文本输入的不便。

GUIRoboTron-Speech解决了传统依赖文本的限制。团队通过创建高质量语音数据集、分阶段训练和混合指令训练策略,成功训练了这个智能体,让它在多个任务上表现出色。研究发现,当用户意图明确时,语音指令比文本指令完成任务的成功率更高,未来还会继续提高它处理复杂指令的能力。

GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体.jpg

核心功能

  • 语音指令驱动:GUIRoboTron-Speech可以直接接收语音指令和设备屏幕截图来预测并执行操作。用户不用手动输入文字,通过语音就能控制GUI代理。

  • 多模态交互:它结合了语音和视觉两种模态,能准确理解语音指令与GUI界面视觉元素的对应关系。

研发方法

  • 数据集生成:由于缺乏语音指令数据集,团队用先进的随机音色文本转语音(TTS)模型,把大规模文本指令数据集转换成多种说话风格和音色的语音指令数据集。

  • 渐进式训练框架:训练分两个阶段:

  • Grounding阶段:模型学习语音指令与GUI视觉元素的精确对应,比如理解“点击‘确定’按钮”并在截图中找到“确定”按钮。

  • Planning阶段:模型学习执行多步骤复杂任务,例如“先登录账号,再找最新邮件并打开附件”,展现逻辑推理和任务规划能力。

  • 启发式混合指令训练策略:为解决预训练模型的模态不平衡问题,团队在训练中混合使用语音和文本指令,让模型平等处理两种输入。

性能表现

  • 指令模态对比:在ScreenSpot任务中,仅用语音指令训练的模型平均grounding准确率比仅用文本指令的低1.6%,但采用混合指令策略后,准确率提高了1.9%。

  • GUI视觉Grounding:在Mobile和Web领域,GUIRoboTron-Speech用语音指令输入时,性能与基于文本指令的先进方法相当。

  • 多步骤任务执行:在AndroidControl和GUIOdyssey等多步骤任务数据集上,它的性能与一些基于文本指令的先进模型相当。

优势与意义

  • 提升交互便利性:用户操作设备时无需手动输入文字,通过语音就能完成各种操作,大大提高了交互的便利性。

  • 拓展应用场景:该技术不仅适用于普通用户的日常便捷操作,还适用于驾驶、医疗等需要双手操作的特殊场景,提供更安全、高效的交互方式。

  • 推动技术发展:GUIRoboTron-Speech为语音交互技术在GUI领域的应用提供了新思路和方法,推动了相关技术的发展。

项目链接

技术论文:https://arxiv.org/abs/2506.11127

Github仓库:https://github.com/GUIRoboTron/GUIRoboTron-Speech

收藏
最新工具
腾讯乐享知识库
腾讯乐享知识库

腾讯推出的一款企业智能知识库管理工具,主要帮助企业搭建自己的知识...

金灵 | Gilin
金灵 | Gilin

Gilin AI,专业的金融深度投研AI智能体,基于豆包 Pro...

蚂蚁PPT
蚂蚁PPT

宁波灵达网络科技有限公司推出的一款在线AI自动生成PPT工具。它...

Proactor AI
Proactor AI

一款主打 “主动式A 助手” 的工具,它能够实时监听对话,自主给...

Colorings
Colorings

一款涂色页生成工具,用户可以通过输入文字或上传照片来创建个性化的...

Novi AI
Novi AI

一款 AI 视频生成器,可通过文本生成高质量视频。它支持一键自动...

Director AI
Director AI

基于 @Stagehanddev 的浏览器自动化工具,通过自然语...

 Head AI
Head AI

原名Aha Lab,由00后创业者Kay Feng创办,由Aha...

Study Space
Study Space

一个可以将文件转换为自己的讲座和学习视频的学习平台。不论您是学生...

Keevx
Keevx

一款AI视频创作工具,专注于制作带有真实头像的数字人视频。它能够...