传统图形验证码文字获取，字体工整

最新推荐文章于 2019-12-03 16:15:18 发布

原创最新推荐文章于 2019-12-03 16:15:18 发布 · 882 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Python

爬虫专栏收录该内容

8 篇文章

订阅专栏

本文介绍使用Tesseract OCR库进行图像文字识别的方法，并讨论了在处理复杂验证码时可能遇到的问题及解决方案。

黑白图片文字获取，字体必须工整

在这里插入图片描述

   from PIL import Image
    import pytesseract

    image = Image.open('./images/tesseracttest.jpg')
    # image.show()
    text = pytesseract.image_to_string(image)
    print(text)

彩色背景文字识别。字体必须工整

在这里插入图片描述

	from PIL import Image
    import pytesseract


    image = Image.open('./images/recaptcha.png')
    # image.show()
    gray = image.convert('L')  # 灰度处理
    # image.show()
    bw = gray.point(lambda x: 0 if x < 1 else 255, '1')
    # bw.show()
    print(pytesseract.image_to_string(bw))

ORC 库-Tesseract
文字识别是器视觉的一个分支，将图像翻译成文字一般被称为光学文字识别(Optical
Character Recognition, OCR)
Tesseract 是 Python 进行图像处理的库，该引擎最初由惠普公司开发，目前由 Google 主导。

如果有复杂的验证码在这里插入图片描述识别程序很难保证较高的准确率,验证码粘连組曲非常严重,识别起来比较困难。可以对接打码平台。
主要人工打码的平台有打码免、QQ 超人打码、超级鹰打码等都提供了各种编程语言的接入方式,当然人工打码是需要收费的