原标题:基于Tesseract实现图片文字识别!
一.简介
特点:
2.支持各种输出格式,纯文本,hOCR【HTML】,PDF,仅不可见文本的PDF,TSV。Master分支还对ALTO【XML】输出提供实验性支持。
3.在许多情况下,要想获得更好的OCR结果,需要提高提供给Tesseract的图像的质量。
二.在python环境中安装pytesseract
安装成功!
三.在Windows系统下安装Tesseract
配置环境变量:
四.python代码实现 1# -*- coding: utf-8 -*-
2"""
3 Spyder Editor
4
5 This is a temporary file.
6 """
7
8importpytesseract
9fromPIL importImage
10
11#打开验证码图片
12image = Image.open( 'E:testDatatess1.png')
13#加载一下图片防止报错,此处可以省略
14#image.load
15#调用show来展示图片,调试用此处可以省略
16#image.show
17text = pytesseract.image_to_string(image,lang= 'chi_sim')
18print(text) 五.Python环境执行结果【无数据清洗】 20
a
志
口
吴
吊
5
达
吊
园
康 阮 随 阮 随 随 阮 隆 随 阮 阮 庞
应 阮 院 阮 阮 际 阮 阮 院 院 阮 庞
宇
B
B
B
B
B
B
B
B
B
B
E
胡
胡
胡
胡
胡
胡
胡
胡
胡
胡
脱 医
剧 澈 剖 剖 亨 亨 定 亨 宣 河
宇
B
B
B
B
E
E
E
E
E
E
振
产 莲
主
主
主
主
主
主
主
主
主
主
生 交
E
E