PDF表格提取工具GMFT使用教程

PDF表格提取工具GMFT使用教程

gmft Lightweight, performant, deep table extraction gmft 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

1. 项目介绍

GMFT(Give Me Formatted Tables)是一个轻量级、高效的PDF表格提取工具。它能够将PDF文件中的表格转换为多种格式,如Markdown、LaTeX、HTML、CSV、JSON等。GMFT基于微软的Table Transformer模型,该模型在多种表格提取任务中表现出色。项目旨在提供一种快速、可靠且易于使用的表格提取解决方案。

2. 项目快速启动

首先,确保您的环境中安装了Python。然后按照以下步骤进行操作:

# 安装必要的依赖
pip install transformers pytorch

# 安装GMFT
pip install gmft

下面是一个简单的示例,演示如何使用GMFT从PDF文件中提取表格:

from gmft.auto import CroppedTable, TableDetector, AutoTableFormatter
from gmft.pdf_bindings import PyPDFium2Document

def ingest_pdf(pdf_path):
    # 初始化文档对象
    doc = PyPDFium2Document(pdf_path)
    tables = []  # 用于存储表格的列表

    # 遍历文档的每一页
    for page in doc:
        # 使用检测器提取当前页面的表格
        detector = TableDetector()
        tables += detector.extract(page)

    return tables, doc

# 使用示例
tables, doc = ingest_pdf("path/to/pdf.pdf")

# 完成表格提取后,关闭文档
doc.close()

3. 应用案例和最佳实践

  • 批量提取:对于包含多个表格的PDF文件,可以使用GMFT提供的bulk_extract功能,这样可以一次性提取所有表格。
  • 格式化输出:提取的表格可以转换为多种格式,例如转换为CSV格式方便后续数据分析。
  • 图像输出:如果需要,GMFT也可以输出表格的图像裁剪,这有助于人工验证提取结果。

4. 典型生态项目

  • Img2Table:一个非深度学习的表格提取工具,对于某些表格结构可能效果更好。
  • Nougat:适用于PDF表格提取和文档理解的工具,输出格式包括LaTeX公式和标记文本。
  • Open-parse:一个文档理解工具,可以提取文档中的辅助信息,如标题、段落等。
  • Unstructured:另一个文档理解工具,对于表格提取也有很好的表现。

通过以上介绍,您应该可以对GMFT有一个基本的了解,并且能够快速开始使用它来提取PDF文件中的表格。

gmft Lightweight, performant, deep table extraction gmft 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸星葵Freeman

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值