Memvid:一款基于视频的AI内存库,解决AI记忆能力
Memvid是什么?
Memvid是一款基于视频的 ai 内存库,可将文本数据编码到视频中实现快速语义搜索与检索。其具备将数百万文本块存储于单个 MP4 文件、亚秒级检索、10 倍存储效率、无需基础设施、离线可用等优势,支持 Python 3.8 及以上版本,采用 MIT 许可证。安装需先安装 zbar 依赖,提供了编码、聊天、检索等功能,性能方面随数据集增大,编码时间增长,搜索时间和存储占用合理,还支持自定义嵌入、视频优化等高级配置。
Memvid核心优势
视频作为数据库:将数百万文本块存储在单个 MP4 文件中。
语义搜索:支持自然语言查询,能够在秒级别完成大规模数据集的搜索。
高效存储:相比传统数据库,存储效率提升 10 倍。
离线优先:视频生成后,无需互联网即可使用。
内置聊天功能:提供对话式接口,可根据上下文给出响应。
PDF 支持:可以直接导入和索引 PDF 文档。
Memvid技术原理
记忆视频信息:将整个视频信息编码到一个结构化的记忆中,捕捉长距离依赖和上下文检索线索。
推理任务需求:基于记忆对问题的信息需求进行推理。
检索关键时刻:从视频中检索与信息需求相关的关键时刻。
生成答案:基于检索结果生成最终答案。
Memvid功能模块
编码模块(MemvidEncoder)
支持分块处理文本,默认块大小 512 字符,重叠 50 字符。
可从文本文件批量导入数据,附加元数据(如来源文件)。
生成视频文件(.mp4)和索引文件(.json),支持调整 FPS(默认 30)、帧大小(默认 512)、视频编码(如 H265)。
检索模块(MemvidRetriever)
语义搜索返回相关文本块,支持指定返回数量(top_k)。
获取上下文窗口(max_tokens 可达 2000),按 ID 检索块。
聊天模块(MemvidChat)
集成 LLM(OpenAI、Anthropic、本地模型),支持对话历史管理和导出。
交互式界面(MemvidInteractive):启动 Web 界面(http://localhost:7860)进行聊天。
Memvid应用场景
数字图书馆:将数千册书籍索引至单个视频文件。
教育资源:创建可搜索的视频记忆,以保存课程材料。
新闻档案:将多年的文章压缩成可管理的视频数据库。
企业知识库:构建公司范围内可搜索的知识库。
科研论文:对科学文献进行快速语义搜索。
个人笔记:将个人笔记转换成可搜索的 AI 助手。
项目链接
https://pypi.org/project/memvid/
https://github.com/Olow304/memvid