Python处理扫描的PDF文件：图像OCR处理+pytesseract安装+文字提取

星行夜空

已于 2024-05-31 09:45:29 修改

阅读量2.1k

点赞数 13

文章标签： python pdf ocr

于 2024-05-31 09:41:16 首次发布

本文链接：https://blog.youkuaiyun.com/Kiek17/article/details/139335849

版权

本文介绍了使用Python结合pytesseract库处理扫描PDF文件的方法，包括安装环境、配置tesseract，以及通过代码将PDF转换为PNG图像并提取文字内容，最终整合成完整的TXT文档。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

有一些PDF资料，比较久远，是扫描出来的，需要文字版本
如果只需要其中几个片段可以直接微信截图识别
但是如果需要全本识别，人工的方式费时费力
OCR （Optical Character Recognition，光学字符识别），可以将图像中的文本信息提取出来，转换成计算机可处理的文本数据，为后续的分析和处理提供了便利。

虚拟环境准备

需要安装的库为：

pip install pytesseract
pip install fitz
pip install opencv-python
pip install PyMuPDF
pip install tesseract
pip install pillow
pip install pyperclip
pip install playwright

pytesseract设置

其中，pytesseract的安装比较复杂，需要设置虚拟环境
如果不设置，会遇到：

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH

假设已经成功运行了pip install pytesseract
检查环境设置
打开Python的外部库——site-packages——pytesseract——pytesseract.py
发现文件中有一句（最开头）tesseract_cmd =‘tesseract’
这里是没有指定路径的
从网上找到相应的‘Tesseract-OCR’下载安装
进入网站
https://github.com/tesseract-ocr/tessdoc/blob/main/Installation.md
找到对应系统文件，例如win

亲测下载第二个即可
自定义安装，不要改变路径（最好不要）注意，安装的时候要勾选所有的可安装内容，不然没有中文
添加到环境变量的系统变量（PATH）
系统搜索环境变量，打开