PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务

PDF Document Layout Analysis是什么?

PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。

PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务.webp

PDF Document Layout Analysis功能特征

1. OCR 功能

多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。

文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。

2. 页面分割和分类

  • 识别多种元素:能够识别和分类 PDF 页面中的多种元素:

  • 文本:普通文本内容。

  • 标题:文档的标题和小标题。

  • 图片:页面中的图像。

  • 表格:表格内容。

  • 公式:数学公式,支持 LaTeX 格式输出。

  • 列表项:有序或无序的列表。

  • 页眉和页脚:页面的页眉和页脚。

  • 脚注:文档中的脚注。

  • 其他:如图片说明、表格标题等。

  • 精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。

3. 元素排序

  • 逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。

  • 自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。

4. 可视化输出

  • 可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。

  • 标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。

5. 表格和公式提取

  • 表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。

  • 公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。

PDF Document Layout Analysis功能特征.webp

PDF Document Layout Analysis应用场景

  • 学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析

  • 法律文档分析:分析和结构化法律文件、合同和案例文件。

  • 商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。

  • 档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。

  • 出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。

快速开始

  • 运行服务:支持 GPU 和非 GPU 模式。

  • OCR 功能:支持多种语言,通过 curl 命令调用。

  • 获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。

  • 停止服务:提供停止服务器的命令。

依赖和要求

  • Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。

  • GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。

  • 硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。

模型

  • 视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。

  • LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。

数据

  • 训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。

使用方法

  • 基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。

  • 可视化输出:支持将分析结果可视化为 PDF 文件。

  • 表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。

输出顺序

  • 排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。

性能和速度

  • 性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。

  • 速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。

相关链接

GitHub:https://github.com/huridocs/pdf-document-layout-analysis

DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis

收藏
最新工具
法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM
森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能,你可以沉...

Sweezy Cursors
Sweezy Cursors

一个提供免费鼠标光标​​的网站,支持​​Chrome浏览器​​和...

YumCheck
YumCheck

一款能帮用户解析食品包装上的营养成分标签,评估食品是否健康的免费...