PDF表格提取工具GMFT使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00399/article/details/147036559

PDF表格提取工具GMFT使用教程

gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

1. 项目介绍

GMFT（Give Me Formatted Tables）是一个轻量级、高效的PDF表格提取工具。它能够将PDF文件中的表格转换为多种格式，如Markdown、LaTeX、HTML、CSV、JSON等。GMFT基于微软的Table Transformer模型，该模型在多种表格提取任务中表现出色。项目旨在提供一种快速、可靠且易于使用的表格提取解决方案。

2. 项目快速启动

首先，确保您的环境中安装了Python。然后按照以下步骤进行操作：

# 安装必要的依赖
pip install transformers pytorch

# 安装GMFT
pip install gmft

下面是一个简单的示例，演示如何使用GMFT从PDF文件中提取表格：

from gmft.auto import CroppedTable, TableDetector, AutoTableFormatter
from gmft.pdf_bindings import PyPDFium2Document

def ingest_pdf(pdf_path):
    # 初始化文档对象
    doc = PyPDFium2Document(pdf_path)
    tables = []  # 用于存储表格的列表

    # 遍历文档的每一页
    for page in doc:
        # 使用检测器提取当前页面的表格
        detector = TableDetector()
        tables += detector.extract(page)

    return tables, doc

# 使用示例
tables, doc = ingest_pdf("path/to/pdf.pdf")

# 完成表格提取后，关闭文档
doc.close()