GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体

美团和浙江大学合作开发了GUIRoboTron-Speech,这是一个能用语音指令和设备屏幕截图直接做决策的GUI智能体。它能让用户通过语音和设备屏幕截图来操控计算机,避免了传统文本输入的不便。

GUIRoboTron-Speech解决了传统依赖文本的限制。团队通过创建高质量语音数据集、分阶段训练和混合指令训练策略,成功训练了这个智能体,让它在多个任务上表现出色。研究发现,当用户意图明确时,语音指令比文本指令完成任务的成功率更高,未来还会继续提高它处理复杂指令的能力。

GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体.jpg

核心功能

  • 语音指令驱动:GUIRoboTron-Speech可以直接接收语音指令和设备屏幕截图来预测并执行操作。用户不用手动输入文字,通过语音就能控制GUI代理。

  • 多模态交互:它结合了语音和视觉两种模态,能准确理解语音指令与GUI界面视觉元素的对应关系。

研发方法

  • 数据集生成:由于缺乏语音指令数据集,团队用先进的随机音色文本转语音(TTS)模型,把大规模文本指令数据集转换成多种说话风格和音色的语音指令数据集。

  • 渐进式训练框架:训练分两个阶段:

  • Grounding阶段:模型学习语音指令与GUI视觉元素的精确对应,比如理解“点击‘确定’按钮”并在截图中找到“确定”按钮。

  • Planning阶段:模型学习执行多步骤复杂任务,例如“先登录账号,再找最新邮件并打开附件”,展现逻辑推理和任务规划能力。

  • 启发式混合指令训练策略:为解决预训练模型的模态不平衡问题,团队在训练中混合使用语音和文本指令,让模型平等处理两种输入。

性能表现

  • 指令模态对比:在ScreenSpot任务中,仅用语音指令训练的模型平均grounding准确率比仅用文本指令的低1.6%,但采用混合指令策略后,准确率提高了1.9%。

  • GUI视觉Grounding:在Mobile和Web领域,GUIRoboTron-Speech用语音指令输入时,性能与基于文本指令的先进方法相当。

  • 多步骤任务执行:在AndroidControl和GUIOdyssey等多步骤任务数据集上,它的性能与一些基于文本指令的先进模型相当。

优势与意义

  • 提升交互便利性:用户操作设备时无需手动输入文字,通过语音就能完成各种操作,大大提高了交互的便利性。

  • 拓展应用场景:该技术不仅适用于普通用户的日常便捷操作,还适用于驾驶、医疗等需要双手操作的特殊场景,提供更安全、高效的交互方式。

  • 推动技术发展:GUIRoboTron-Speech为语音交互技术在GUI领域的应用提供了新思路和方法,推动了相关技术的发展。

项目链接

技术论文:https://arxiv.org/abs/2506.11127

Github仓库:https://github.com/GUIRoboTron/GUIRoboTron-Speech

收藏
最新工具
ClonBrowser
ClonBrowser

一款主打多账号隔离、反指纹和自动化的桌面与网页端指纹浏览器,常用...

Lightyear.fm
Lightyear.fm

一个既有趣又有教育意义的网站。Lightyear模拟了无线电波以...

MovieGame
MovieGame

一个电影爱好者做的个人网站,玩家通过看电影截图来猜电影片名,网站...

汉兜
汉兜

一款汉字版的Wordle游戏,基于流行的英文猜词游戏Wordle...

Gempix2 AI
Gempix2 AI

一款集生成和编辑图像于一体的的AI图像生成工具,提供包括文本转图...

极像素
极像素

一个展示和探索超高像素全景图像的在线平台,能提供全球各地超高分辨...

Krunker.io
Krunker.io

一款免费的在线多人第一人称射击游戏,直接在网页就能玩。游戏玩法多...

转换云
转换云

一个在线音乐格式转换网站,包括.ncm、.mgg、.mflac、...

萝卜工坊
萝卜工坊

一个能把电子文本变成逼真手写风格的在线工具。它有AI专属字体制作...

LyricsPoster
LyricsPoster

一个帮你把喜欢的歌手图片和歌词做成海报的在线工具。你可以在简单的...