PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务

PDF Document Layout Analysis是什么?

PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。

PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务.webp

PDF Document Layout Analysis功能特征

1. OCR 功能

多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。

文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。

2. 页面分割和分类

  • 识别多种元素:能够识别和分类 PDF 页面中的多种元素:

  • 文本:普通文本内容。

  • 标题:文档的标题和小标题。

  • 图片:页面中的图像。

  • 表格:表格内容。

  • 公式:数学公式,支持 LaTeX 格式输出。

  • 列表项:有序或无序的列表。

  • 页眉和页脚:页面的页眉和页脚。

  • 脚注:文档中的脚注。

  • 其他:如图片说明、表格标题等。

  • 精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。

3. 元素排序

  • 逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。

  • 自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。

4. 可视化输出

  • 可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。

  • 标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。

5. 表格和公式提取

  • 表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。

  • 公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。

PDF Document Layout Analysis功能特征.webp

PDF Document Layout Analysis应用场景

  • 学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析

  • 法律文档分析:分析和结构化法律文件、合同和案例文件。

  • 商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。

  • 档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。

  • 出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。

快速开始

  • 运行服务:支持 GPU 和非 GPU 模式。

  • OCR 功能:支持多种语言,通过 curl 命令调用。

  • 获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。

  • 停止服务:提供停止服务器的命令。

依赖和要求

  • Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。

  • GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。

  • 硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。

模型

  • 视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。

  • LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。

数据

  • 训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。

使用方法

  • 基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。

  • 可视化输出:支持将分析结果可视化为 PDF 文件。

  • 表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。

输出顺序

  • 排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。

性能和速度

  • 性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。

  • 速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。

相关链接

GitHub:https://github.com/huridocs/pdf-document-layout-analysis

DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...