python图片识别文字tesseract-ocr

阿星_

已于 2024-10-27 12:33:30 修改

阅读量545

点赞数 5

文章标签： python ocr 开发语言

于 2024-10-23 13:06:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq503690160/article/details/143180948

版权

Pytesseract 是一个基于 Python 的 OCR（Optical Character Recognition，光学字符识别）工具，它依赖于 Google 开发的开源 OCR 引擎 Tesseract 来实现图片中文字的识别。Pytesseract 支持多种图片格式，如 jpeg、png、gif、bmp、tiff 等，并且可以通过设置不同的参数来优化识别效果1 6。

安装与配置

要使用 Pytesseract，首先需要通过 pip 安装库本身：pip install pytesseract

此外，还需要安装 Tesseract-OCR 引擎，并确保其路径正确配置（安装目录添加到环境变量）。例如，在 Windows 系统中，可以通过设置 pytesseract.pytesseract.tesseract_cmd 来指定 Tesseract 执行文件的位置4。

下载地址：csdn下载地址

https://digi.bib.uni-mannheim.de/tesseract/?C=M;O=D

from PIL import Image
#1.图片识别库pytesseract配合安装tesseract-ocr-w64-setup-5.3.0.20221222.exe并添加安装目录到环境变量
#tesseract-ocr下载地址：https://digi.bib.uni-mannheim.de/tesseract/?C=M;O=D
#安装路径:C:\Users\Administrator\AppData\Local\Programs\Tesseract-OCR
#2.在安装路径下的tessdata目录里放入中文训练数据集文件chi_sim.traineddata和chi_sim_vert.traineddata
#训练数据集文件chi_sim.traineddata和chi_sim_vert.traineddata下载地址：https://github.com/tesseract-ocr/tessdata
import pytesseract

f=r'C:\Users\Administrator\PycharmProjects\pythonProject\DATA\IMG\ocrtest.png'
image = Image.open(f)
# text = pytesseract.image_to_string(image)
text = pytesseract.image_to_string(image,  lang='chi_sim')

print(text)

#相关文件链接: https://pan.baidu.com/s/17NFxQol6wayWM9P2POdDWg 提取码: b6wu

示例应用

Pytesseract 可以应用于各种场景，例如从扫描文档中提取文字、处理产品标签上的信息提取等。通过结合其他图像处理技术，可以进一步提高识别的准确性和效率2。

结论

Pytesseract 作为一个强大的 Python 库，为开发者提供了便捷的图像文字识别能力。它的灵活性和易用性使得它成为处理 OCR 任务的首选工具之一。通过合理的配置和参数调整，可以有效地应对不同类型的图像文字识别挑战。

博客等级

码龄16年

88
原创

129
点赞

351
收藏

122
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

python you-get下载视频
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
python scrapy爬虫学习
阿星_: 教你使用 scrapy + DrissionPage 爬取51job 和过滑块验证码 https://blog.youkuaiyun.com/py_tiro/article/details/131635300
线段拼接算法
DecentFang: 将浮点数转换成字符串，来判断浮点数是否相等，老哥高啊
QGis读解。。。
guanyuni363: 我现在用QgsRubberBand话的多边形，用QgsVectorLayer画的shp地图，现在有个问题就是多边形把地图给覆盖住了，有什么办法让地图显示在多边形的上面吗？
QGIS源码编译
阿星_: 那么编译的时候报告LINK错误，无法解析的外部符号，一般是下面几种原因造成的： 1. 最常见的情况是要么没有指定引用库的路径，或者没有指定所以依赖的库文件名字。 2. 如果正确指定了lib库路径，以及lib库名，那检查一下该lib中是否有该符号的实现，也就是说头文件中声明了该符号，但是该库文件中却没有具体的实现。（7z打开lib查看里面的txt） 3. 如果库文件中确实实现了符号的定义，那么检查一下lib库的版本是否与正确(32位或者64位)。还有如果报告的是某一个函数无法解析，则要对比一下该函数在库中的实现与在头文件中的声明是否一致(特别是函数的参数个数与参数类型是否完全一致)。 4. 有一种情况就是在编译lib的时候，该lib是动态库，但是没有添加导出声明，导致该库中的函数并不对外导出(静态库不需要导出声明，加了反而会有问题)，那么使用者在链接的时候也会报无法解析的符号。 5. 还有一种非常隐蔽的情况，这也是我遇到的情况，在项目A中将一些基本的数据类型做了typedef，例如类似下面的定义： typedef unsigned char uint8_t; typedef unsigned short int uint16_t;

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。