GMFT项目使用与配置指南

GMFT项目使用与配置指南

gmft Lightweight, performant, deep table extraction gmft 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

1. 项目目录结构及介绍

gmft项目是一个轻量级、高效的PDF表格提取工具。以下是项目的目录结构及其介绍:

gmft/
├── data/                   # 存储项目所需数据集的目录
├── docs/                   # 项目文档
├── gmft/                   # 核心代码模块
├── notebooks/              # Jupyter笔记本,用于演示和测试
├── test/                   # 测试代码目录
├── .gitattributes           # 定义Git属性的文件
├── .gitignore              # 定义Git忽略规则的文件
├── .pre-commit-config.yaml # pre-commit钩子配置文件
├── CHANGELOG.md            # 项目更新日志
├── CITATION.cff            # 项目引用文件
├── LICENSE                 # 项目许可证文件
├── README.md               # 项目说明文件
├── dev.md                  # 开发者文档
├── pyproject.toml          # Python项目配置文件
├── requirements-dev.txt    # 开发环境依赖文件
├── requirements.txt        # 生产环境依赖文件

2. 项目的启动文件介绍

gmft项目的启动通常是通过Python的命令行界面进行的。项目的主要启动文件是gmft模块中的脚本。以下是一个简单的启动示例:

from gmft import auto
from gmft.pdf_bindings import PyPDFium2Document

# 初始化表格检测器和格式化器
detector = auto.AutoTableDetector()
formatter = auto.AutoTableFormatter()

# 加载PDF文档
def ingest_pdf(pdf_path):
    doc = PyPDFium2Document(pdf_path)
    tables = []
    for page in doc:
        tables += detector.extract(page)
    return tables, doc

# 调用函数处理PDF文件
tables, doc = ingest_pdf("path/to/pdf.pdf")

# 关闭文档
doc.close()

这段代码展示了如何使用gmft库来提取PDF中的表格。首先,它初始化了表格检测器和格式化器。然后,定义了一个函数ingest_pdf来处理PDF文件,提取表格,并返回结果。最后,它关闭了文档以释放资源。

3. 项目的配置文件介绍

gmft项目的配置文件主要包括.pre-commit-config.yamlpyproject.toml

  • .pre-commit-config.yaml:这个文件是用于配置pre-commit钩子的,它有助于在代码提交前自动执行一些格式化和检查任务,如代码风格检查、许可证头检查等。

  • pyproject.toml:这是一个用于描述Python项目的信息和依赖关系的文件。它包含了项目的基本信息,如名字、版本和依赖项。gmft使用pyproject.toml来管理其依赖,如下所示:

[build-system]
requires = ["setuptools", "wheel"]
build-backend = "setuptools.build_meta"

[tool.setuptools]
name = "gmft"
version = "0.3.0"
description = "Lightweight, performant, deep table extraction"
long_description = "..."
long_description_content_type = "text/markdown"
 classifiers = [
     ...
 ]
python_requires = ">=3.7"
install_requires = [
    "transformers",
    "pytorch",
    "pypdfium2",
]

这个配置文件定义了项目的名称、版本、描述以及所需的依赖项。通过编辑这个文件,可以添加或删除项目的依赖,以及配置其他项目相关的设置。

gmft Lightweight, performant, deep table extraction gmft 项目地址: https://gitcode.com/gh_mirrors/gm/gmft

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

基于MATLAB的建筑能耗建模系统含源码+设计报告(高分毕设项目).zip 主要功能 建立建筑物能源系统的数学模型,包括锅炉、管道、散热器、混合器、空调机组等多种元件 使用隐式求解方法解决系统的能量平衡方程 支持多个求解器并行计算不同水循环系统 提供了连接不同求解器的Bridge类 项目目标**:建立一个可配置的建筑能耗模型,模拟住宅或商用建筑在不同气候条件下的热能耗用电动态,支持节能控制策略模拟。 应用背景 随着建筑能耗在全球总能耗中的占比不断提高,利用数学建模和计算机仿真技术对建筑热环境进行预测优化显得尤为重要。该项目通过 MATLAB 平台构建简洁、可扩展的建筑能耗仿真环境,可用于研究: * 建筑围护结构对能耗的影响 * 加热、通风和空调系统(HVAC)策略优化 * 被动/主动节能控制策略 * 外部天气数据的交互仿真(如 TMY3) 核心模型类(.m 文件): AirHeatExchanger.m, Boiler.m, Chiller.m, Pipe.m, Radiator.m, FanCoil.m, HeatExchanger.m, Mixer.m, Same.m 这些文件定义了热交换器、锅炉、冷水机组、管道、散热器、风机盘管、混合器等建筑能源系统组件的数学模型及热平衡方程。 控制求解相关: SetpointController.m:HVAC 设置点控制器。 Solver.m:核心数值求解器,用于建立并求解系统线性方程组。 系统集成桥接: Bridge.m:用于连接多个 solver 或不同流体系统之间的耦合关系。 Constant.m:定义恒定温度源或引用变量。 环境区域: Zone.m:建筑空间(房间)模块,模拟热容、传热等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙典将Phyllis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值