按照教程安装pytesseract和tesseract exe并添加exe路径到系统变量Path中后执行代码后报错:pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
解决方法安装 poppler-utils并将路径添加到Path中
完事又报错,然后确认tesseract 是否可执行,结果报错不是可执行文件,诡异的是在系统的cmd命令行窗口是可调用的,但是到了python的虚拟环境中在执行就变成不可调用了
查询解决方法,如下:
直接修改第三方库中tesseract_cmd的值为exe的绝对路径(此时就埋了个大坑)
仍然报错,随后再次确认python获取的os.environ中的path是否包含刚刚添加的两个新的路径,结果是没有的
解决办法,重启,重启后os.environ中包含新添加的路径了
然后执行代码又报错,发生异常: PermissionError [WinError 5] 拒绝访问。
尝试打印文件是否可读可写,均OK…
卡了很久,尝试在代码中增加
poppler_path=r"D:\Program Files\poppler-24.08.0\Library\bin"
pytesseract.pytesseract.tesseract_cmd = r’D:\Program Files\Tesseract-OCR\tesseract.exe’
均无法解决,最后又在某个评论中看到要把上面的这两行注释掉就好了,然后在注释代码的时候猛然想到第三方库文件中的源文件中的tesseract_cmd被修改为exe的绝对路径了,遂恢复第三方文件的内容,再次执行,解决!!!
总结:应该就是新安装完软件并添加Path后没有重启,导致Python中没有及时获取到新的Path,无法调用文件
以后再也别乱改第三方库的源文件了