传统图形验证码文字获取,字体工整

本文介绍使用Tesseract OCR库进行图像文字识别的方法,并讨论了在处理复杂验证码时可能遇到的问题及解决方案。

黑白图片文字获取,字体必须工整

在这里插入图片描述

   from PIL import Image
    import pytesseract

    image = Image.open('./images/tesseracttest.jpg')
    # image.show()
    text = pytesseract.image_to_string(image)
    print(text)

彩色背景文字识别。字体必须工整

在这里插入图片描述

	from PIL import Image
    import pytesseract


    image = Image.open('./images/recaptcha.png')
    # image.show()
    gray = image.convert('L')  # 灰度处理
    # image.show()
    bw = gray.point(lambda x: 0 if x < 1 else 255, '1')
    # bw.show()
    print(pytesseract.image_to_string(bw))

ORC 库-Tesseract
文字识别是器视觉的一个分支,将图像翻译成文字一般被称为光学文字识别(Optical
Character Recognition, OCR)
Tesseract 是 Python 进行图像处理的库,该引擎最初由惠普公司开发,目前由 Google 主导。

如果有复杂的验证码在这里插入图片描述识别程序很难保证较高的准确率,验证码粘连組曲非常严重,识别起来比较困难。可以对接打码平台。
主要人工打码的平台有打码免、QQ 超人打码、超级鹰打码等 都提供了各种编程语言的接入方式,当然人工打码是需要收费的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值