Nanonets-OCR-s:能把图片里的表格转换成Markdown格式模型

Nanonets-OCR-s是什么?

Nanonets-OCR-s,能把图片里的表格转换成Markdown格式,而且还能识别 LaTeX 语法。它还能找到图片的位置,转换成 <img> 标签。签名会被转换成 <signature> 标签,复选框之类的符号会用颜文字表示。它还能处理合并单元格的表格,并输出为 HTML 格式。这个模型大小是 3.75B,是基于 Qwen2.5-VL-3B-Instruct 微调的,所以中文支持得很好。

Nanonets-OCR-s:超强表格转 Markdown 模型.jpg

功能亮点

  • 表格转换:可以精准提取复杂表格,并将其转换为清晰的 Markdown 和 HTML 格式。

  • 公式识别:能够将文档中的数学公式准确转换为 LaTeX 语法,无论是内联公式还是独立公式都能轻松应对。

  • 图像处理:自动识别文档中的图片,并用 <img> 标签进行描述,方便后续处理。

  • 签名与水印提取:可以检测到文档中的签名和水印,并分别用 <signature> 和 <watermark> 标签标记出来。

  • 复选框处理:将文档中的复选框和单选按钮转换为标准的 Unicode 符号,方便阅读和编辑。

使用方式

通过 Python 库:

  • 安装必要的库(如 transformers 等)。

  • 加载预训练模型,然后处理图像并提取内容。

通过服务器接口:

  • 启动服务器,通过 Python 和相关客户端发送请求,获取转换结果。

通过简化工具

  • 使用 docext 等工具,一键启动应用,简化操作流程。

适用场景

  • 学术研究:快速将论文中的公式、图表和表格转换为可编辑的 Markdown 格式,方便整理和进一步研究。

  • 商业办公:处理合同、报表等文件,提取关键信息并保持格式一致,提高工作效率。

  • 法律领域:识别和隔离签名、水印等重要元素,确保文档的完整性和准确性。

优势

  • 功能强大:能识别多种文档元素,满足不同场景的需求。

  • 智能高效:通过智能识别和语义标记,让输出内容更易于处理。

  • 轻量便捷:模型大小适中,基于现有技术优化,支持中文。

项目地址

https://huggingface.co/nanonets/Nanonets-OCR-s

收藏
最新工具
法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...

Relume
Relume

一个通过AI来优化网站设计与搭建流程的平台,可以快速生成网站地图...

Pomelli
Pomelli

Google开发的AI营销工具,主要服务中小商家。你只需要提供企...

Gartic.io
Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT
LandPPT

一个基于大语言模型的开源免费AIPPT生成平台,支持将文档内容自...

AppleWalls
AppleWalls

一个免费提供苹果官方内置壁纸下载的网站,包括iPhone、iPa...

Coddy.Tech
Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

森林电台Tree.FM
森林电台Tree.FM

一个能让你收听世界各地森林声音的网站。通过随机收听功能,你可以沉...

Sweezy Cursors
Sweezy Cursors

一个提供免费鼠标光标​​的网站,支持​​Chrome浏览器​​和...

YumCheck
YumCheck

一款能帮用户解析食品包装上的营养成分标签,评估食品是否健康的免费...