Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型
Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。
Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手
Project Astra 的功能特征:
多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。
实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)。
代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息。
本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟。
增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴。
企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台。
与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场。
未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力。
Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。
Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。