Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

GNkbt6AWAAAzeqI.jpg

Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征:

多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。

实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)

代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息

本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟

增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴

企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台

与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场

未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力

Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。

收藏
最新工具
Red Panda AI
Red Panda AI

红熊猫,也称为 Recraft V3,它在设计理解和视觉输出质量...

炉米Lumi
炉米Lumi

字节跳动推出的AI绘画模型分享社区,炉米Lumi集成了多种功能,...

心光
心光

一款AI驱动的生活记录和日记工具,可以帮助用户轻松记录日常生活、...

DDLink数字名片
DDLink数字名片

一款风靡网络的链接管理工具,DDLink以其清洁、简约的设计理念...

图生生AI
图生生AI

专为电商设计的AI商拍工具。通过AIGC技术,图生生AI无需模特...

Christmas HQ
Christmas HQ

一个专注于提供免费可商用的圣诞节设计素材集合网站,Christm...

FabPic
FabPic

一款功能强大、免费的屏幕截图美化工具,FabPic特别适合于截图...

Health iCons
Health iCons

一个提供免费、开源健康图标的网站,适用于商业和个人项目。用户可以...

AI Novelist
AI Novelist

一个专注于日语小说创作的平台,拥有超过 2TB 的文本训练数据。...

ima.copilot
ima.copilot

一款由腾讯混元大模型提供技术支持的智能工作台产品,ima.cop...