使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题
1、python中pdf2excel转化模块的选用
python中有三个pdf表格数据(暂不考虑纯文本)转化模块:pdfminer、pdfplumber、tabula
因为在选用模块前上网搜了一下,各个模块的特点。
1.1 pdfminer
Pdfminer主要用于对pdf的文本信息进行提取,如果提取表格结果格式会很混乱。
1.2 pdfplumber
同样pdfminer 对于表格的处理也很不友好,能提取出文字,但是没有格式。
1.3 tabula
tabula专门用于提取pdf表格,同时可以将pdf导出为csv、excel格式。
****************************************************************************等我处理后再开篇展示下tabula处理pdf2excel的结果,这里只记录安装过程中遇到的问题~
*****************************************************************************************
2 python中tabula模块的安装及问题解决
2.1 tabula安装
为了下载的顺畅,使用指定的清华镜像进行安装,因为tabula的依赖库包括pandas、numpy,同时我在直接进行tabula-py安装时总会因为pandas或者numpy的下载中断,所以我先通过指定网址安装了numpy和pandas,安装完成后再进行的tabula-py的安装,具体操作的是:
首先,pip install -i https://p