一.简介
Tesseract是一个开源的文本识别【OCR】引擎,可通过Apache 2.0许可获得。它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于LSTM的OCR引擎,该引擎专注于行识别,但仍支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式进行工作。通过使用传统OCR引擎模式【--oem 0】,可以与Tesseract 3兼容。它还需要训练好的数据文件对旧引擎进行支持,例如tessdata目录下的数据文件。
另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目可拿,不懂的问题多跟里面的人交流,都会解决哦!
特点:
1.具有Unicode【UTF-8】支持,并且可以“开箱即用”地识别100多种语言。
2.支持各种输出格式,纯文本,hOCR【HTML】,PDF,仅不可见文本的PDF,TSV。Master分支还对ALTO【XML】输出提供实验性支持。
3.在许多情况下,要想获得更好的OCR结果,需要提高提供给Tesseract的图像的质量。
二.在python环境中安装pytesseract
安装成功!
三.在Windows系统下安装Tesseract
配置环境变量:
备注:最新的为4.1.0,建议安装4.x版本,根据一可知,版本4有重大升级,系统性能显著提升,特别是在对中文的识别上更是明显!
四.python代码实现
1 # -*- coding: utf-8 -*-
2 """
3 Spyder Editor
4
5 This is a temporary script file.
6 """
7
8 import pytesseract
9 from PIL import Image
10
11 #打开验证码图片
12 image = Image.open('E:\\testData\\tess\\1.png')
13 #加载一下图片防止报错,此处可以省略
14 #image.load()
15 #调用show来展示图片,调试用此处可以省略
16 #image.show()
17 text = pytesseract.image_to_string(image,lang='chi_sim')
18 print(text)
五.Python环境执行结果【无数据清洗】
20
a
志
口
吴
吊
5
达
吊
园
康 阮 随 阮 随 随 阮 隆 随 阮 阮 庞
应 阮 院 阮 阮 际 阮 阮 院 院 阮 庞
宇
B
B
B
B
B
B
B
B
B
B
E
胡
胡
胡
胡
胡
胡
胡
胡
胡
胡
脱 医
剧 澈 剖 剖 亨 亨 定 亨 宣 河
宇
B
B
B
B
E
E
E
E
E
E
振
产 莲
主
主
主
主
主
主
主
主
主
主
生 交
E
E
E
E
E
E
E
E
E
E
E35653
职
职
职
职
职
职
职
职
职
职
E
E
E
E
E
E
E
E
E
E
E
093
View Code