PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务

PDF Document Layout Analysis是什么?

PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。

PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务.webp

PDF Document Layout Analysis功能特征

1. OCR 功能

多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。

文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。

2. 页面分割和分类

  • 识别多种元素:能够识别和分类 PDF 页面中的多种元素:

  • 文本:普通文本内容。

  • 标题:文档的标题和小标题。

  • 图片:页面中的图像。

  • 表格:表格内容。

  • 公式:数学公式,支持 LaTeX 格式输出。

  • 列表项:有序或无序的列表。

  • 页眉和页脚:页面的页眉和页脚。

  • 脚注:文档中的脚注。

  • 其他:如图片说明、表格标题等。

  • 精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。

3. 元素排序

  • 逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。

  • 自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。

4. 可视化输出

  • 可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。

  • 标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。

5. 表格和公式提取

  • 表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。

  • 公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。

PDF Document Layout Analysis功能特征.webp

PDF Document Layout Analysis应用场景

  • 学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析

  • 法律文档分析:分析和结构化法律文件、合同和案例文件。

  • 商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。

  • 档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。

  • 出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。

快速开始

  • 运行服务:支持 GPU 和非 GPU 模式。

  • OCR 功能:支持多种语言,通过 curl 命令调用。

  • 获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。

  • 停止服务:提供停止服务器的命令。

依赖和要求

  • Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。

  • GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。

  • 硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。

模型

  • 视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。

  • LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。

数据

  • 训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。

使用方法

  • 基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。

  • 可视化输出:支持将分析结果可视化为 PDF 文件。

  • 表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。

输出顺序

  • 排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。

性能和速度

  • 性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。

  • 速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。

相关链接

GitHub:https://github.com/huridocs/pdf-document-layout-analysis

DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...