No-OCR:一款不需要OCR文本提取的文档处理工具

No-OCR是什么?

No-OCR是一款不需要复杂OCR文本提取的文档处理工具,只需上传PDF文件,就可以快速搜索或查询多个文档集合中的内容,不需要依赖传统OCR技术,可以提升文档分析效率。它支持创建和管理PDF/文档集合,并按“案例”分类组织,同时自动构建Hugging Face风格的数据集。此外,No-OCR还具备基于向量的PDF页面和相关图像搜索功能(使用LanceDB),并通过Qwen2-VL实现图像和图表的视觉问答。它支持文本和视觉查询的混合搜索,可通过Docker快速部署,配置简单,还提供了详细的开发安装说明。

No-OCR是什么?.webp

No-OCR特点

  • 无需OCR:完全不依赖OCR技术,适用于视觉内容丰富的PDF文件。

  • 简单易用:上传PDF文件后即可进行搜索,支持复杂视觉内容(如表格、图表、布局等)。

  • 开源模型:基于开源的LLM(大型语言模型)进行内容检索和解释。

  • 可部署性:支持Docker部署,适用于任何企业环境。

No-OCR使用场景

  • 适用场景:如果文档包含丰富的视觉内容(如表格、图表、布局等),No-OCR是一个很好的选择。

  • 不适用场景:如果文档主要是纯文本内容,传统的BM25搜索可能更适合。

  • 混合内容:如果文档包含文本和视觉内容的混合,可能需要根据需求调整解决方案。

No-OCR架构设计

  • 简单架构:不依赖数据库或消息队列,所有持久化操作均基于文件系统。

  • 主要服务:

  • Modal:用于LLM的部署。

  • Qdrant:用于多向量搜索。

  • Supabase:用于用户认证和授权。

  • 创建案例:用户上传PDF文件并指定案例名称,系统会将PDF转换为数据集并上传到Qdrant。

  • 搜索流程:用户输入搜索查询,系统通过LLM识别相关页面并解释内容。

No-OCR LLM模型

  • ColPali家族:用于图像检索,将图像转换为可搜索格式。

  • Qwen2-VL家族:用于视觉内容的推理,特别是Qwen2-VL-7B-Instruct模型,是目前最先进的开源视觉模型之一。

No-OCR创建案例流程.jpg

创建案例流程

工作原理

No-OCR平台采用简化的RAG方法,用户只需上传PDF文件创建案例,系统会处理这些文件并使其可搜索。用户可以提出任何问题,包括关于视觉元素的问题,平台会利用顶级开源推理模型提供答案。

No-OCR搜索流程.jpg

搜索流程

No-OCR使用步骤

  1. 上传并处理复杂PDF:用户上传具有挑战性的PDF文件创建新案例,系统会生成嵌入,无需复杂的OCR处理。

  2. 使其可搜索:处理完成后,用户可以运行基于文本的查询,快速找到相关页面和引用,无论PDF布局多么复杂。

  3. 提出视觉相关问题:平台会快速定位相关页面,然后通过专门的开源视觉模型进一步提炼答案,即使PDF包含图表或图表,也能提供上下文感知的见解。

TLDR:https://no-ocr.com/about

Github:https://github.com/kyryl-opens-ml/no-ocr

收藏
最新工具
AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...

Resource Boy
Resource Boy

一个提供高质量免费样机等设计资源的网站,有很多素材,像材质、笔刷...

AlternativeTo
AlternativeTo

一个众包软件推荐平台,可以帮用户找到更好的应用和服务。你可以搜各...

DaYin.page
DaYin.page

一个强大、免费、易用的在线习题打印生成器网站,可以一键生成数学题...

Mobile Phone Museum
Mobile Phone Museum

一个非营利组织的手机博物馆,目的是存档和保存移动技术,并扩大对移...

BlackACE黑桃A
BlackACE黑桃A

一款可以将网站转换为安卓APP的工具,它可以够帮助个人开发者、创...

Aluo AI
Aluo AI

电商AI图片编辑平台,30 秒就能做出专业的商品图片,它能自动扣...

CrazyGames
CrazyGames

全球有名的免费在线小游戏平台,涵盖动作、冒险、射击、益智、体育、...

MC.JS
MC.JS

网页版《我的世界》的克隆游戏,用 JavaScript 和 We...