PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务

PDF Document Layout Analysis是什么?

PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。

PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务.webp

PDF Document Layout Analysis功能特征

1. OCR 功能

多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。

文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。

2. 页面分割和分类

  • 识别多种元素:能够识别和分类 PDF 页面中的多种元素:

  • 文本:普通文本内容。

  • 标题:文档的标题和小标题。

  • 图片:页面中的图像。

  • 表格:表格内容。

  • 公式:数学公式,支持 LaTeX 格式输出。

  • 列表项:有序或无序的列表。

  • 页眉和页脚:页面的页眉和页脚。

  • 脚注:文档中的脚注。

  • 其他:如图片说明、表格标题等。

  • 精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。

3. 元素排序

  • 逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。

  • 自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。

4. 可视化输出

  • 可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。

  • 标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。

5. 表格和公式提取

  • 表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。

  • 公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。

PDF Document Layout Analysis功能特征.webp

PDF Document Layout Analysis应用场景

  • 学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析

  • 法律文档分析:分析和结构化法律文件、合同和案例文件。

  • 商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。

  • 档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。

  • 出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。

快速开始

  • 运行服务:支持 GPU 和非 GPU 模式。

  • OCR 功能:支持多种语言,通过 curl 命令调用。

  • 获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。

  • 停止服务:提供停止服务器的命令。

依赖和要求

  • Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。

  • GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。

  • 硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。

模型

  • 视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。

  • LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。

数据

  • 训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。

使用方法

  • 基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。

  • 可视化输出:支持将分析结果可视化为 PDF 文件。

  • 表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。

输出顺序

  • 排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。

性能和速度

  • 性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。

  • 速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。

相关链接

GitHub:https://github.com/huridocs/pdf-document-layout-analysis

DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis

收藏
最新工具
Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...

Resource Boy
Resource Boy

一个提供高质量免费样机等设计资源的网站,有很多素材,像材质、笔刷...

AlternativeTo
AlternativeTo

一个众包软件推荐平台,可以帮用户找到更好的应用和服务。你可以搜各...

DaYin.page
DaYin.page

一个强大、免费、易用的在线习题打印生成器网站,可以一键生成数学题...

Mobile Phone Museum
Mobile Phone Museum

一个非营利组织的手机博物馆,目的是存档和保存移动技术,并扩大对移...

BlackACE黑桃A
BlackACE黑桃A

一款可以将网站转换为安卓APP的工具,它可以够帮助个人开发者、创...

Aluo AI
Aluo AI

电商AI图片编辑平台,30 秒就能做出专业的商品图片,它能自动扣...

CrazyGames
CrazyGames

全球有名的免费在线小游戏平台,涵盖动作、冒险、射击、益智、体育、...