从 PDF 表格中获取数据是一项痛苦的工作。不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。
PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果。然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。
“我自己是一名从事了6年python开发的老程序员,今年年初我花了一个月整理了一份最适合2022年自学的Python全套培训教程(视频+源码+笔记+项目实战),加我微信:paisen110打包给每一位python小伙伴,这里是python学习者聚集地,欢迎初学和进阶中的小伙伴(所有python教程关注我的微信公众号:python教程营,关注后回复“python教程”即可领取
大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前,有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。
-
项目地址:https://github.com/camelot-dev/camelot
Camelot 是什么
据项目介