GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体

美团和浙江大学合作开发了GUIRoboTron-Speech,这是一个能用语音指令和设备屏幕截图直接做决策的GUI智能体。它能让用户通过语音和设备屏幕截图来操控计算机,避免了传统文本输入的不便。

GUIRoboTron-Speech解决了传统依赖文本的限制。团队通过创建高质量语音数据集、分阶段训练和混合指令训练策略,成功训练了这个智能体,让它在多个任务上表现出色。研究发现,当用户意图明确时,语音指令比文本指令完成任务的成功率更高,未来还会继续提高它处理复杂指令的能力。

GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体.jpg

核心功能

  • 语音指令驱动:GUIRoboTron-Speech可以直接接收语音指令和设备屏幕截图来预测并执行操作。用户不用手动输入文字,通过语音就能控制GUI代理。

  • 多模态交互:它结合了语音和视觉两种模态,能准确理解语音指令与GUI界面视觉元素的对应关系。

研发方法

  • 数据集生成:由于缺乏语音指令数据集,团队用先进的随机音色文本转语音(TTS)模型,把大规模文本指令数据集转换成多种说话风格和音色的语音指令数据集。

  • 渐进式训练框架:训练分两个阶段:

  • Grounding阶段:模型学习语音指令与GUI视觉元素的精确对应,比如理解“点击‘确定’按钮”并在截图中找到“确定”按钮。

  • Planning阶段:模型学习执行多步骤复杂任务,例如“先登录账号,再找最新邮件并打开附件”,展现逻辑推理和任务规划能力。

  • 启发式混合指令训练策略:为解决预训练模型的模态不平衡问题,团队在训练中混合使用语音和文本指令,让模型平等处理两种输入。

性能表现

  • 指令模态对比:在ScreenSpot任务中,仅用语音指令训练的模型平均grounding准确率比仅用文本指令的低1.6%,但采用混合指令策略后,准确率提高了1.9%。

  • GUI视觉Grounding:在Mobile和Web领域,GUIRoboTron-Speech用语音指令输入时,性能与基于文本指令的先进方法相当。

  • 多步骤任务执行:在AndroidControl和GUIOdyssey等多步骤任务数据集上,它的性能与一些基于文本指令的先进模型相当。

优势与意义

  • 提升交互便利性:用户操作设备时无需手动输入文字,通过语音就能完成各种操作,大大提高了交互的便利性。

  • 拓展应用场景:该技术不仅适用于普通用户的日常便捷操作,还适用于驾驶、医疗等需要双手操作的特殊场景,提供更安全、高效的交互方式。

  • 推动技术发展:GUIRoboTron-Speech为语音交互技术在GUI领域的应用提供了新思路和方法,推动了相关技术的发展。

项目链接

技术论文:https://arxiv.org/abs/2506.11127

Github仓库:https://github.com/GUIRoboTron/GUIRoboTron-Speech

收藏
最新工具
颜习生AI
颜习生AI

一个智能颜值测评平台,算法经百万级人脸数据训练,结合亚洲美学标准...

A Million Dollar Idea
A Million Dollar Idea

一个用AI帮人想商业点子的工具,这里有几百个各行各业的创业点子,...

DeepSider AI
DeepSider AI

一款浏览器侧边栏AI工具,集成了GPT、Sonnet、Claud...

店匠Shoplazza
店匠Shoplazza

专门帮中国跨境电商卖家建独立站、做运营的平台。它用 SaaS 模...

Rebolt AI
Rebolt AI

通过自然语言驱动的低代码,无代码企业级AI应用开发平台,团队能用...

Telemetrio
Telemetrio

一个专注于Telegram频道分析和广告投放优化的工具平台,能帮...

快蜗牛选品
快蜗牛选品

给做跨境电商特别是OZON平台的卖家用的选品工具。能让卖家选品更...

幻剪
幻剪

一款AI视频编辑工具,主打文案智能成片、AI视频解说和批量处理三...

智算旅迹
智算旅迹

一款能帮用户规划行程、解析攻略、看地图路线、旅途中提醒并找旅行伙...

Clever AI Humanizer
Clever AI Humanizer

一个完全免费的能把你用AI写的文本改得更像人写的在线工具,它会调...