黑白图片文字获取,字体必须工整
from PIL import Image
import pytesseract
image = Image.open('./images/tesseracttest.jpg')
# image.show()
text = pytesseract.image_to_string(image)
print(text)
彩色背景文字识别。字体必须工整
from PIL import Image
import pytesseract
image = Image.open('./images/recaptcha.png')
# image.show()
gray = image.convert('L') # 灰度处理
# image.show()
bw = gray.point(lambda x: 0 if x < 1 else 255, '1')
# bw.show()
print(pytesseract.image_to_string(bw))
ORC 库-Tesseract
文字识别是器视觉的一个分支,将图像翻译成文字一般被称为光学文字识别(Optical
Character Recognition, OCR)
Tesseract 是 Python 进行图像处理的库,该引擎最初由惠普公司开发,目前由 Google 主导。
如果有复杂的验证码识别程序很难保证较高的准确率,验证码粘连組曲非常严重,识别起来比较困难。可以对接打码平台。
主要人工打码的平台有打码免、QQ 超人打码、超级鹰打码等 都提供了各种编程语言的接入方式,当然人工打码是需要收费的