SmolDocling:将复杂的文档转换为结构化文本的轻量型视觉语言模型

SmolDocling是什么?

SmolDocling 是由 IBM Research 和 Hugging Face 联合开发的轻量型视觉语言模型,专为端到端多模态文档转换而设计。它仅包含 256M 参数,能够在消费级 GPU 上快速处理文档,每页文档的处理时间仅需 0.35 秒。SmolDocling 的核心使命是将任意图片中的复杂内容转化为可编辑的结构化数据。

SmolDocling功能

  • DocTags 用于高效标记:引入 DocTags,这是一种高效且简洁的文档表示方式,与 DoclingDocuments 完全兼容。

  • OCR(光学字符识别):能够从图像中准确提取文本。

  • 布局和定位:保留文档结构和文档元素的 边界框。

  • 代码识别:检测并格式化代码块,包括缩进。

  • 公式识别:识别并处理数学表达式。

  • 图表识别:提取并解释图表数据。

  • 表格识别:支持带列标题和行标题的结构化表格提取。

  • 图形分类:区分图形和图形元素。

  • 标题对应:将标题与相关图像和图形链接起来。

  • 列表分组:正确组织和结构化列表元素。

  • 全页转换:处理整个页面,包括页面上的所有元素(代码、方程、表格、图表等)。

  • OCR 带边界框:使用边界框进行 OCR 区域识别。

  • 通用文档处理:适用于科学和非科学文档的训练。

  • 无缝 Docling 集成:可以导入到 Docling 并以多种格式导出(如 HTML、Markdown 等)。

  • 快速推理:在 A100 GPU 上平均每页处理时间为 0.35 秒。

SmolDocling:将复杂的图像、PDF文档高效转换为结构化文本.webp

模型扩展与优化

  • 支持多种指令:支持多种指令,例如将页面转换为 DocTags、将图表转换为表格、将公式转换为 LaTeX 等。

  • 多语言支持:虽然主要支持英语,但可能通过扩展支持更多语言。

  • 持续改进:改进图表识别、支持多页推理、化学识别等功能。

SmolDocling应用场景

  • 学术研究:快速将学术论文和研究报告转换为结构化格式,便于提取关键信息。

  • 商业文档处理:自动转换商业合同、报告和表格,便于企业进行文档存储、检索和分析。

  • 技术文档管理:将技术手册、代码文档等转换为可编辑格式,支持代码片段的准确识别和格式化。

  • 教育领域:将教材、讲义中的内容(如公式、图表)提取并转换为易于理解的格式。

  • 医疗文档处理:处理医疗报告和研究论文,提取关键信息,辅助医疗决策。

  • 移动与低资源设备支持:可在移动设备或资源受限的环境中运行。

SmolDocling使用方法

  1. 模型下载:可以从 Hugging Face 模型库下载 SmolDocling。

  2. 本地部署:由于其体积小,可在普通笔记本电脑或移动设备上运行。

  3. API 调用:可以通过 Hugging Face 提供的 API 接口调用 SmolDocling。

  4. 微调模型:开发者可以通过微调模型适配特定场景,如医疗报告解析、财务表格识别。

Hugging Face 模型库:https://huggingface.co/ds4sd/SmolDocling-256M-preview

DEMO:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

收藏

相关文章

最新工具
GamePix
GamePix

全球领先的 HTML5 和 WebGL 游戏分发平台。它把各类分...

PixelSquid
PixelSquid

Shutterstock推出的专为平面设计师和Photoshop...

Dos.Zone
Dos.Zone

一个聚合经典DOS游戏的在线游玩平台,游戏种类特别多,有动作、策...

KBHgames
KBHgames

一个老牌免费在线游戏网站,谁都可以在这儿找到想玩的游戏。涵盖动作...

SoundWise AI
SoundWise AI

一个完全免费的AI音视频转录工具,能在浏览器里直接把音频和视频转...

Armor Games
Armor Games

全球知名免费在线游戏平台与独立游戏发行商​,ArmorGames...

Social Auto Upload
Social Auto Upload

社交媒体视频一键多平台发布工具​,一站式解决抖音、小红书、视频号...

在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...