No-OCR:一款不需要OCR文本提取的文档处理工具

No-OCR是什么?

No-OCR是一款不需要复杂OCR文本提取的文档处理工具,只需上传PDF文件,就可以快速搜索或查询多个文档集合中的内容,不需要依赖传统OCR技术,可以提升文档分析效率。它支持创建和管理PDF/文档集合,并按“案例”分类组织,同时自动构建Hugging Face风格的数据集。此外,No-OCR还具备基于向量的PDF页面和相关图像搜索功能(使用LanceDB),并通过Qwen2-VL实现图像和图表的视觉问答。它支持文本和视觉查询的混合搜索,可通过Docker快速部署,配置简单,还提供了详细的开发安装说明。

No-OCR是什么?.webp

No-OCR特点

  • 无需OCR:完全不依赖OCR技术,适用于视觉内容丰富的PDF文件。

  • 简单易用:上传PDF文件后即可进行搜索,支持复杂视觉内容(如表格、图表、布局等)。

  • 开源模型:基于开源的LLM(大型语言模型)进行内容检索和解释。

  • 可部署性:支持Docker部署,适用于任何企业环境。

No-OCR使用场景

  • 适用场景:如果文档包含丰富的视觉内容(如表格、图表、布局等),No-OCR是一个很好的选择。

  • 不适用场景:如果文档主要是纯文本内容,传统的BM25搜索可能更适合。

  • 混合内容:如果文档包含文本和视觉内容的混合,可能需要根据需求调整解决方案。

No-OCR架构设计

  • 简单架构:不依赖数据库或消息队列,所有持久化操作均基于文件系统。

  • 主要服务:

  • Modal:用于LLM的部署。

  • Qdrant:用于多向量搜索。

  • Supabase:用于用户认证和授权。

  • 创建案例:用户上传PDF文件并指定案例名称,系统会将PDF转换为数据集并上传到Qdrant。

  • 搜索流程:用户输入搜索查询,系统通过LLM识别相关页面并解释内容。

No-OCR LLM模型

  • ColPali家族:用于图像检索,将图像转换为可搜索格式。

  • Qwen2-VL家族:用于视觉内容的推理,特别是Qwen2-VL-7B-Instruct模型,是目前最先进的开源视觉模型之一。

No-OCR创建案例流程.jpg

创建案例流程

工作原理

No-OCR平台采用简化的RAG方法,用户只需上传PDF文件创建案例,系统会处理这些文件并使其可搜索。用户可以提出任何问题,包括关于视觉元素的问题,平台会利用顶级开源推理模型提供答案。

No-OCR搜索流程.jpg

搜索流程

No-OCR使用步骤

  1. 上传并处理复杂PDF:用户上传具有挑战性的PDF文件创建新案例,系统会生成嵌入,无需复杂的OCR处理。

  2. 使其可搜索:处理完成后,用户可以运行基于文本的查询,快速找到相关页面和引用,无论PDF布局多么复杂。

  3. 提出视觉相关问题:平台会快速定位相关页面,然后通过专门的开源视觉模型进一步提炼答案,即使PDF包含图表或图表,也能提供上下文感知的见解。

TLDR:https://no-ocr.com/about

Github:https://github.com/kyryl-opens-ml/no-ocr

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...