Python(爬虫篇)--- 验证码破解【一】图片、文字验证码

本文介绍了机器视觉中的OCR技术,特别是Google赞助的Tesseract库,用于识别图片中的文字。然而,Tesseract在处理复杂的验证码图片时效果有限。因此,文章提出两种解决方案:一是使用Selenium结合人工输入验证码;二是借助第三方打码平台如超级鹰,通过API接口自动化处理。这两种方法在实际的网络爬虫和验证码识别场景中具有实用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一、图片验证码概述

在这里插入图片描述

(一)机器视觉

从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些Python库来识别和 使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数机器人都没法读取的图片,验证码(CAPTCHA)就出现了。 验证码读取的难易程度也大不相同,有些验证码比其他的更加难读。

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现 OCR 的底层库并不多,目前很多库都是使用共同的几个底层 OCR 库,或者是在上面 进行定制。

(二)OCR库概述

在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。虽然有很多库可以进行图像处理,在这里我们简单介绍下:Tesseract

(1)Tesseract 简介

我们知道 Google 是一家以 OCR 和机器学习技术闻名于世的公司,Tesseract 这个 OCR 库就是由 Google 赞助的。

(2)Tesseract 缺点

用 Tesseract 读取硬盘里图片上的文字,可能不怎么令人兴奋,但当我们把它和网络爬 虫组合使用时,就能成为一个强大的工具。

但是网站上的图片可能并不会像我们普通的图片那样,看的很明显,简洁明了,对于这种图片,我们使用 Tesseract 处理图片就显得心有余而力不足了。也就是说,Tesseract 只适 合处理简单的图片,往往我们在做爬虫时,图片验证码的图片并不会很容易就被识别出来, 所以,Tesseract 的使用是会受到限制的。

鉴于 Tesseract 存在限制,我们可以使用 Selenium 手动输入验证码。


下面我们介绍两种破解简单验证码的方法,借助于实例来更好的说明。本文使用国家税务局发票验证时产生的验证码为例。

二、方式一:Selenium手动打码

手动打码意思就是人工输入验证码进行验证

注意:不使用谷歌浏览器,谷歌需要安装证书,所以使用IE浏览器

  1. 安装IE浏览器,安装ie的驱动,配置ie浏览器:https://www.cnblogs.com/misswjr/p/9453566.html
  2. 安装根证书,手动安装:https://inv-veri.chinatax.gov.cn/
# 1. 导入webdriver
from selenium import webdriver

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值