Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

GNkbt6AWAAAzeqI.jpg

Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征:

多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。

实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)

代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息

本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟

增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴

企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台

与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场

未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力

Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。

收藏
最新工具
Davia
Davia

一款开源网页生成工具,目标是提供类似大厂那种“所见即所得”的网页...

达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...