Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

GNkbt6AWAAAzeqI.jpg

Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征:

多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。

实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)

代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息

本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟

增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴

企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台

与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场

未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力

Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。

收藏
最新工具
AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...