使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题

最新推荐文章于 2025-10-28 09:58:04 发布

原创

最新推荐文章于 2025-10-28 09:58:04 发布 · 2.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python

使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题

1、python中pdf2excel转化模块的选用
2 python中tabula模块的安装及问题解决

1、python中pdf2excel转化模块的选用

python中有三个pdf表格数据（暂不考虑纯文本）转化模块：pdfminer、pdfplumber、tabula
因为在选用模块前上网搜了一下，各个模块的特点。

1.1 pdfminer

Pdfminer主要用于对pdf的文本信息进行提取，如果提取表格结果格式会很混乱。

1.2 pdfplumber

同样pdfminer 对于表格的处理也很不友好，能提取出文字，但是没有格式。

1.3 tabula

tabula专门用于提取pdf表格，同时可以将pdf导出为csv、excel格式。

****************************************************************************等我处理后再开篇展示下tabula处理pdf2excel的结果，这里只记录安装过程中遇到的问题~
*****************************************************************************************

2 python中tabula模块的安装及问题解决

2.1 tabula安装

为了下载的顺畅，使用指定的清华镜像进行安装，因为tabula的依赖库包括pandas、numpy，同时我在直接进行tabula-py安装时总会因为pandas或者numpy的下载中断，所以我先通过指定网址安装了numpy和pandas，安装完成后再进行的tabula-py的安装，具体操作的是：
首先，pip install -i https://pypi.tuna.