背景
最近在实际工作中,项目中的需求文档是PDF格式,但PDF文档中有大量的表格,如需求数据、需求清单等,
大家也知道在PDF文档中查看、操作表格都不方便,就想着写一个小工具:读取PDF文档中的表格生成EXCEL文件
这样,在EXCEL文件中就可以随心所欲的操作了。😋😋😋😋😋
开发工具
pdfplumber简介
综合比较后,觉得pdfplumber可以满足我的要求。
源码地址
基于pdfminer.six 开发,目前已在Python 3.6、3.7和3.8上测试通过。
pdfplumber可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。
针对pdfplumber,只需要记住如下:
- 是一个纯python第三方库,适合python 3.x版本
- 用来查看pdf各类信息,能有效提取文本、表格</