GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体

美团和浙江大学合作开发了GUIRoboTron-Speech,这是一个能用语音指令和设备屏幕截图直接做决策的GUI智能体。它能让用户通过语音和设备屏幕截图来操控计算机,避免了传统文本输入的不便。

GUIRoboTron-Speech解决了传统依赖文本的限制。团队通过创建高质量语音数据集、分阶段训练和混合指令训练策略,成功训练了这个智能体,让它在多个任务上表现出色。研究发现,当用户意图明确时,语音指令比文本指令完成任务的成功率更高,未来还会继续提高它处理复杂指令的能力。

GUIRoboTron-Speech:美团与浙江大推出的首个语音交互GUI智能体.jpg

核心功能

  • 语音指令驱动:GUIRoboTron-Speech可以直接接收语音指令和设备屏幕截图来预测并执行操作。用户不用手动输入文字,通过语音就能控制GUI代理。

  • 多模态交互:它结合了语音和视觉两种模态,能准确理解语音指令与GUI界面视觉元素的对应关系。

研发方法

  • 数据集生成:由于缺乏语音指令数据集,团队用先进的随机音色文本转语音(TTS)模型,把大规模文本指令数据集转换成多种说话风格和音色的语音指令数据集。

  • 渐进式训练框架:训练分两个阶段:

  • Grounding阶段:模型学习语音指令与GUI视觉元素的精确对应,比如理解“点击‘确定’按钮”并在截图中找到“确定”按钮。

  • Planning阶段:模型学习执行多步骤复杂任务,例如“先登录账号,再找最新邮件并打开附件”,展现逻辑推理和任务规划能力。

  • 启发式混合指令训练策略:为解决预训练模型的模态不平衡问题,团队在训练中混合使用语音和文本指令,让模型平等处理两种输入。

性能表现

  • 指令模态对比:在ScreenSpot任务中,仅用语音指令训练的模型平均grounding准确率比仅用文本指令的低1.6%,但采用混合指令策略后,准确率提高了1.9%。

  • GUI视觉Grounding:在Mobile和Web领域,GUIRoboTron-Speech用语音指令输入时,性能与基于文本指令的先进方法相当。

  • 多步骤任务执行:在AndroidControl和GUIOdyssey等多步骤任务数据集上,它的性能与一些基于文本指令的先进模型相当。

优势与意义

  • 提升交互便利性:用户操作设备时无需手动输入文字,通过语音就能完成各种操作,大大提高了交互的便利性。

  • 拓展应用场景:该技术不仅适用于普通用户的日常便捷操作,还适用于驾驶、医疗等需要双手操作的特殊场景,提供更安全、高效的交互方式。

  • 推动技术发展:GUIRoboTron-Speech为语音交互技术在GUI领域的应用提供了新思路和方法,推动了相关技术的发展。

项目链接

技术论文:https://arxiv.org/abs/2506.11127

Github仓库:https://github.com/GUIRoboTron/GUIRoboTron-Speech

收藏
最新工具
Anifun AI
Anifun AI

一个实用的AI动漫创作平台,能帮你快速做出动漫图、漫画和视频。它...

 Viddo
Viddo

一款可以一键将视频转为文字内容的工具,它可以在10秒内将YouT...

爱折纸网
爱折纸网

一个专门教手工折纸的网站。上面有很多折纸教程,有简单的儿童折纸,...

BrowserOS
BrowserOS

一款基于 Chromium 内核带 AI 代理功能的浏览器,能自...

Chess
Chess

全球很火的在线国际象棋平台。把 AI用到了平台里,能提供对弈、训...

3DTuning
3DTuning

一款3D汽车改装应用,能实现汽车可视化模拟、个性化配置,还能让用...

AmpCode
AmpCode

Sourcegraph 公司开发的智能代码编程助手,和 Cla...

Luvvoice
Luvvoice

一个免费在线文字转语音工具,能把文字变成自然的语音,有多种 AI...

WithoutAD
WithoutAD

一个专为青少年设计的益智游戏与学习平台,免费且无广告,帮助孩子“...

AniColors
AniColors

一个专注于动漫色彩的调色板生成工具,能帮动漫爱好者和设计师快速找...