首页 > Ai资讯 > Ai产品

Project Astra： Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra于2024-05-16发布在Ai产品

Project Astra 是由 Google DeepMind 研发的一个研究原型，它具备视频理解能力，并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上，Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

Project Astra 是 Google 推出的一个多模态 ai 项目，旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征：

多模态交互：Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互，提供了一个全面的交互体验。

实时识别与记忆：Astra 能够在不间断的视频中识别物品，并回忆起物品的位置。例如，它能够识别眼镜并指出它在桌子上的位置（靠近一个红苹果）。

代码解释：Astra 还能够解释屏幕上的代码，这表明它能够处理和理解复杂的视觉信息。

本地运行：Project Astra 基于 Gemini，可以本地运行在 Pixel 手机上，这表明它具有较高的处理速度和较低的延迟。

增强现实和人机交互：Project Astra 在增强现实和人机交互方面取得了重大进步，它让设备不仅仅是获取信息的工具，而是能够理解和参与我们日常生活的伙伴。

企业级存储和数据服务：值得注意的是，Project Astra 也被用作 NetApp 的一个项目名称，该项目旨在为 Kubernetes 提供企业级存储和数据服务平台。

与 OpenAI 的竞争：Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处，两者都在 AI 助手领域有相似的愿景，并且都在争夺相同的市场。

未来展望：Project Astra 的目标是将技术嵌入到手机和可穿戴设备中，成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段，但它已经展示了其在实时交互和多模态理解方面的潜力。

Project Astra 使用用户设备上的摄像头和麦克风，通过持续处理和编码视频帧和语音输入，创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题，并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示，尽管 Project Astra 目前仍处于早期阶段，并且没有具体的发布计划，但该公司暗示，这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中（以一个名为 "Gemini Live" 的特性），这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示，这是为了创造一个具有“代理性”的代理，能够“代表你思考、推理和规划”。