No-OCR:一款不需要OCR文本提取的文档处理工具

No-OCR是什么?

No-OCR是一款不需要复杂OCR文本提取的文档处理工具,只需上传PDF文件,就可以快速搜索或查询多个文档集合中的内容,不需要依赖传统OCR技术,可以提升文档分析效率。它支持创建和管理PDF/文档集合,并按“案例”分类组织,同时自动构建Hugging Face风格的数据集。此外,No-OCR还具备基于向量的PDF页面和相关图像搜索功能(使用LanceDB),并通过Qwen2-VL实现图像和图表的视觉问答。它支持文本和视觉查询的混合搜索,可通过Docker快速部署,配置简单,还提供了详细的开发安装说明。

No-OCR是什么?.webp

No-OCR特点

  • 无需OCR:完全不依赖OCR技术,适用于视觉内容丰富的PDF文件。

  • 简单易用:上传PDF文件后即可进行搜索,支持复杂视觉内容(如表格、图表、布局等)。

  • 开源模型:基于开源的LLM(大型语言模型)进行内容检索和解释。

  • 可部署性:支持Docker部署,适用于任何企业环境。

No-OCR使用场景

  • 适用场景:如果文档包含丰富的视觉内容(如表格、图表、布局等),No-OCR是一个很好的选择。

  • 不适用场景:如果文档主要是纯文本内容,传统的BM25搜索可能更适合。

  • 混合内容:如果文档包含文本和视觉内容的混合,可能需要根据需求调整解决方案。

No-OCR架构设计

  • 简单架构:不依赖数据库或消息队列,所有持久化操作均基于文件系统。

  • 主要服务:

  • Modal:用于LLM的部署。

  • Qdrant:用于多向量搜索。

  • Supabase:用于用户认证和授权。

  • 创建案例:用户上传PDF文件并指定案例名称,系统会将PDF转换为数据集并上传到Qdrant。

  • 搜索流程:用户输入搜索查询,系统通过LLM识别相关页面并解释内容。

No-OCR LLM模型

  • ColPali家族:用于图像检索,将图像转换为可搜索格式。

  • Qwen2-VL家族:用于视觉内容的推理,特别是Qwen2-VL-7B-Instruct模型,是目前最先进的开源视觉模型之一。

No-OCR创建案例流程.jpg

创建案例流程

工作原理

No-OCR平台采用简化的RAG方法,用户只需上传PDF文件创建案例,系统会处理这些文件并使其可搜索。用户可以提出任何问题,包括关于视觉元素的问题,平台会利用顶级开源推理模型提供答案。

No-OCR搜索流程.jpg

搜索流程

No-OCR使用步骤

  1. 上传并处理复杂PDF:用户上传具有挑战性的PDF文件创建新案例,系统会生成嵌入,无需复杂的OCR处理。

  2. 使其可搜索:处理完成后,用户可以运行基于文本的查询,快速找到相关页面和引用,无论PDF布局多么复杂。

  3. 提出视觉相关问题:平台会快速定位相关页面,然后通过专门的开源视觉模型进一步提炼答案,即使PDF包含图表或图表,也能提供上下文感知的见解。

TLDR:https://no-ocr.com/about

Github:https://github.com/kyryl-opens-ml/no-ocr

收藏
最新工具
Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM
森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能,你可以沉...