PDF表格提取工具GMFT使用教程
gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft
1. 项目介绍
GMFT(Give Me Formatted Tables)是一个轻量级、高效的PDF表格提取工具。它能够将PDF文件中的表格转换为多种格式,如Markdown、LaTeX、HTML、CSV、JSON等。GMFT基于微软的Table Transformer模型,该模型在多种表格提取任务中表现出色。项目旨在提供一种快速、可靠且易于使用的表格提取解决方案。
2. 项目快速启动
首先,确保您的环境中安装了Python。然后按照以下步骤进行操作:
# 安装必要的依赖
pip install transformers pytorch
# 安装GMFT
pip install gmft
下面是一个简单的示例,演示如何使用GMFT从PDF文件中提取表格:
from gmft.auto import CroppedTable, TableDetector, AutoTableFormatter
from gmft.pdf_bindings import PyPDFium2Document
def ingest_pdf(pdf_path):
# 初始化文档对象
doc = PyPDFium2Document(pdf_path)
tables = [] # 用于存储表格的列表
# 遍历文档的每一页
for page in doc:
# 使用检测器提取当前页面的表格
detector = TableDetector()
tables += detector.extract(page)
return tables, doc
# 使用示例
tables, doc = ingest_pdf("path/to/pdf.pdf")
# 完成表格提取后,关闭文档
doc.close()
3. 应用案例和最佳实践
- 批量提取:对于包含多个表格的PDF文件,可以使用GMFT提供的
bulk_extract
功能,这样可以一次性提取所有表格。 - 格式化输出:提取的表格可以转换为多种格式,例如转换为CSV格式方便后续数据分析。
- 图像输出:如果需要,GMFT也可以输出表格的图像裁剪,这有助于人工验证提取结果。
4. 典型生态项目
- Img2Table:一个非深度学习的表格提取工具,对于某些表格结构可能效果更好。
- Nougat:适用于PDF表格提取和文档理解的工具,输出格式包括LaTeX公式和标记文本。
- Open-parse:一个文档理解工具,可以提取文档中的辅助信息,如标题、段落等。
- Unstructured:另一个文档理解工具,对于表格提取也有很好的表现。
通过以上介绍,您应该可以对GMFT有一个基本的了解,并且能够快速开始使用它来提取PDF文件中的表格。
gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考