Tabled项目使用教程
tabled Detect and extract tables to markdown and csv 项目地址: https://gitcode.com/gh_mirrors/tab/tabled
1. 项目的目录结构及介绍
Tabled
是一个开源项目,用于检测和提取PDF中的表格内容,并将其格式化为Markdown、CSV或HTML格式。以下是项目的目录结构及其介绍:
.github/
- 存放与GitHub相关的配置文件,如工作流(workflows)等。
benchmarks/
- 包含性能测试的相关脚本。
scripts/
- 存放一些辅助性脚本。
static/
- 存储静态文件,如图片等。
tabled/
- 项目的主要目录,包含所有源代码。
.gitignore
- 指定Git应该忽略的文件和目录。
CLA.md
- 贡献者许可协议。
LICENSE
- 项目使用的许可证信息。
README.md
- 项目的说明文件。
extract.py
- 用于提取表格的主要脚本。
poetry.lock
- 包管理工具poetry的锁定文件。
pyproject.toml
- 项目配置文件,用于定义项目的依赖等。
run_table_app.py
- 运行交互式应用的脚本。
table_app.py
- 交互式应用的主体代码。
2. 项目的启动文件介绍
项目的启动文件是run_table_app.py
,这个脚本用于启动一个基于Streamlit的交互式应用,让用户可以上传图片或PDF文件并查看表格提取的结果。
要启动这个应用,你需要先安装Streamlit,然后运行以下命令:
pip install streamlit
python run_table_app.py
这将在默认的Web浏览器中打开应用,用户可以开始上传文件并查看结果。
3. 项目的配置文件介绍
项目的配置文件是pyproject.toml
,它用于定义项目的元数据和依赖。以下是配置文件的主要内容:
[tool.poetry]
name = "tabled"
version = "0.1.0"
description = "Detect and extract tables to markdown and csv"
authors = ["Vik Paruchuri <vik@datalab.to>"]
[tool.poetry.dependencies]
python = "^3.10"
[tool.poetry.dev-dependencies]
pytest = "^6.2"
[build-system]
requires = ["poetry-core>=1.0.0"]
build-backend = "poetry.core.masonry.api"
在这个配置文件中,定义了项目的名称、版本、描述和作者。同时,指定了项目依赖的Python版本和其他库。此外,还定义了开发时依赖的库,如pytest。
通过编辑这个配置文件,你可以管理项目的依赖和版本,以确保项目能够正确地安装和运行。
tabled Detect and extract tables to markdown and csv 项目地址: https://gitcode.com/gh_mirrors/tab/tabled
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考