python3 +windows+tesseract-orc文字识别

一、安装pytesseract

python-tesseract是python的光学字符识别(OCR)工具,它可以识别并“读取”嵌入图像的文本。安装命令:pip install pytesseract

Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用,因为它可以读取Python Imaging Library支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等,而tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。

二、安装识别引擎tesseract-ocr

Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢,但是工作良好。  tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。 此外,安装好

下载地址:https://github.com/UB-Mannheim/tesseract/wiki ,选择对应版本下载即可。

注意:

1、安装之后,配置环境变量,将安装目录放到系统变量的path 下,这样直接可以在cmd 下,直接tesseract,输出相应信息即可

2、pycharm 需要运行的话,需要更改 pytesseract.py文件,将A 由B、C任意一个替代即可。

    A.  tesseract_cmd = 'tesseract'

    B.tesseract_cmd = 'C:/Program Files (x8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值