GMFT项目使用与配置指南
gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft
1. 项目目录结构及介绍
gmft
项目是一个轻量级、高效的PDF表格提取工具。以下是项目的目录结构及其介绍:
gmft/
├── data/ # 存储项目所需数据集的目录
├── docs/ # 项目文档
├── gmft/ # 核心代码模块
├── notebooks/ # Jupyter笔记本,用于演示和测试
├── test/ # 测试代码目录
├── .gitattributes # 定义Git属性的文件
├── .gitignore # 定义Git忽略规则的文件
├── .pre-commit-config.yaml # pre-commit钩子配置文件
├── CHANGELOG.md # 项目更新日志
├── CITATION.cff # 项目引用文件
├── LICENSE # 项目许可证文件
├── README.md # 项目说明文件
├── dev.md # 开发者文档
├── pyproject.toml # Python项目配置文件
├── requirements-dev.txt # 开发环境依赖文件
├── requirements.txt # 生产环境依赖文件
2. 项目的启动文件介绍
gmft
项目的启动通常是通过Python的命令行界面进行的。项目的主要启动文件是gmft
模块中的脚本。以下是一个简单的启动示例:
from gmft import auto
from gmft.pdf_bindings import PyPDFium2Document
# 初始化表格检测器和格式化器
detector = auto.AutoTableDetector()
formatter = auto.AutoTableFormatter()
# 加载PDF文档
def ingest_pdf(pdf_path):
doc = PyPDFium2Document(pdf_path)
tables = []
for page in doc:
tables += detector.extract(page)
return tables, doc
# 调用函数处理PDF文件
tables, doc = ingest_pdf("path/to/pdf.pdf")
# 关闭文档
doc.close()
这段代码展示了如何使用gmft
库来提取PDF中的表格。首先,它初始化了表格检测器和格式化器。然后,定义了一个函数ingest_pdf
来处理PDF文件,提取表格,并返回结果。最后,它关闭了文档以释放资源。
3. 项目的配置文件介绍
gmft
项目的配置文件主要包括.pre-commit-config.yaml
和pyproject.toml
。
-
.pre-commit-config.yaml
:这个文件是用于配置pre-commit
钩子的,它有助于在代码提交前自动执行一些格式化和检查任务,如代码风格检查、许可证头检查等。 -
pyproject.toml
:这是一个用于描述Python项目的信息和依赖关系的文件。它包含了项目的基本信息,如名字、版本和依赖项。gmft
使用pyproject.toml
来管理其依赖,如下所示:
[build-system]
requires = ["setuptools", "wheel"]
build-backend = "setuptools.build_meta"
[tool.setuptools]
name = "gmft"
version = "0.3.0"
description = "Lightweight, performant, deep table extraction"
long_description = "..."
long_description_content_type = "text/markdown"
classifiers = [
...
]
python_requires = ">=3.7"
install_requires = [
"transformers",
"pytorch",
"pypdfium2",
]
这个配置文件定义了项目的名称、版本、描述以及所需的依赖项。通过编辑这个文件,可以添加或删除项目的依赖,以及配置其他项目相关的设置。
gmft Lightweight, performant, deep table extraction 项目地址: https://gitcode.com/gh_mirrors/gm/gmft
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考