GMFT项目使用与配置指南

最新推荐文章于 2025-04-07 09:50:33 发布

孙典将Phyllis

最新推荐文章于 2025-04-07 09:50:33 发布

阅读量361

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00111/article/details/147036049

GMFT项目使用与配置指南

gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

1. 项目目录结构及介绍

gmft项目是一个轻量级、高效的PDF表格提取工具。以下是项目的目录结构及其介绍：

gmft/
├── data/                   # 存储项目所需数据集的目录
├── docs/                   # 项目文档
├── gmft/                   # 核心代码模块
├── notebooks/              # Jupyter笔记本，用于演示和测试
├── test/                   # 测试代码目录
├── .gitattributes           # 定义Git属性的文件
├── .gitignore              # 定义Git忽略规则的文件
├── .pre-commit-config.yaml # pre-commit钩子配置文件
├── CHANGELOG.md            # 项目更新日志
├── CITATION.cff            # 项目引用文件
├── LICENSE                 # 项目许可证文件
├── README.md               # 项目说明文件
├── dev.md                  # 开发者文档
├── pyproject.toml          # Python项目配置文件
├── requirements-dev.txt    # 开发环境依赖文件
├── requirements.txt        # 生产环境依赖文件

2. 项目的启动文件介绍

gmft项目的启动通常是通过Python的命令行界面进行的。项目的主要启动文件是gmft模块中的脚本。以下是一个简单的启动示例：

from gmft import auto
from gmft.pdf_bindings import PyPDFium2Document

# 初始化表格检测器和格式化器
detector = auto.AutoTableDetector()
formatter = auto.AutoTableFormatter()

# 加载PDF文档
def ingest_pdf(pdf_path):
    doc = PyPDFium2Document(pdf_path)
    tables = []
    for page in doc:
        tables += detector.extract(page)
    return tables, doc

# 调用函数处理PDF文件
tables, doc = ingest_pdf("path/to/pdf.pdf")

# 关闭文档
doc.close()

这段代码展示了如何使用gmft库来提取PDF中的表格。首先，它初始化了表格检测器和格式化器。然后，定义了一个函数ingest_pdf来处理PDF文件，提取表格，并返回结果。最后，它关闭了文档以释放资源。

3. 项目的配置文件介绍

gmft项目的配置文件主要包括.pre-commit-config.yaml和pyproject.toml。

.pre-commit-config.yaml：这个文件是用于配置pre-commit钩子的，它有助于在代码提交前自动执行一些格式化和检查任务，如代码风格检查、许可证头检查等。
pyproject.toml：这是一个用于描述Python项目的信息和依赖关系的文件。它包含了项目的基本信息，如名字、版本和依赖项。gmft使用pyproject.toml来管理其依赖，如下所示：

[build-system]
requires = ["setuptools", "wheel"]
build-backend = "setuptools.build_meta"

[tool.setuptools]
name = "gmft"
version = "0.3.0"
description = "Lightweight, performant, deep table extraction"
long_description = "..."
long_description_content_type = "text/markdown"
 classifiers = [
     ...
 ]
python_requires = ">=3.7"
install_requires = [
    "transformers",
    "pytorch",
    "pypdfium2",
]

这个配置文件定义了项目的名称、版本、描述以及所需的依赖项。通过编辑这个文件，可以添加或删除项目的依赖，以及配置其他项目相关的设置。

gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考