艺赛旗RPA离线识别普通验证码

原创已于 2022-08-06 15:52:21 修改 · 846 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #计算机视觉 #开发语言 #自动化

于 2022-08-02 16:19:15 首次发布

艺赛旗RPA 专栏收录该内容

8 篇文章

订阅专栏

前言

以下方法适用于简易的验证码识别，需要根据自身情况进行调整。

一、配置环境

安装pytesseract库
首先我们需要检查是否已经安装了pytesseract库，经过检查8.0以上版本的设计器，都是已内置了pytesseract库的，所以可以不用再安装。
想练练手也可以再重新安装一遍。
安装：cd 至Python\Scripts，运行命令pip3 install pytesseract
安装失败可参考：【 https://support.i-search.com.cn/article/1594016938814】
安装Tesseract-OCR
我这里使用的是4.1版本(64位)：tesseractocrw64setupv41020190314.exe
另外提供32位的安装包:tesseractocrw32setupv400beta120180414.exe
也可自行去官网下载所需版本：https://digi.bib.uni-mannheim.de/tesseract/
记住使用对应位数的安装包进行安装，安装时全部next即可。
找到pytesseract.py配置tesseract_cmd
（1）我使用的是8.0版本的设计器，pytesseract.py的路径如图，一般是在Python\Lib\site-packages\pytesseract下：

（2）打开pytesseract.py配置tesseract_cmd，配置路径为第二步安装的Tesseract-OCR下的tesseract.exe的路径，默认路径为C:\Program Files\Tesseract-OCR\tesseract.exe,根据自身安装情况进行配置，记住路径前加r，防止字符转义。

二、对图片进行处理

1.保存验证码图片，对图片进行二值化处理
我们对验证码图片进行截图保存，注意截图的位置需要自己进行调整，根据自身情况调整为最佳位置。

from PIL import Image
#选择需要处理的验证码截图
img = Image.open('yzm.jpg')
#模式L”为灰色图像，它的每个像素用8个bit表示，0表示黑，255表示白，其他数字表示不同的灰度。
Img = img.convert('L')
#自定义灰度界限，大于这个值为黑色，小于这个值为白色。threshold可根据实际情况进行调整。
threshold = 135
table = [] 
for i in range(256): 
    if i < threshold: 
        table.append(0) 
    else:
        table.append(1)
#图片二值化
photo = Img.point(table,'1')
#保存处理好的图片
photo.save('yzm.jpg')

处理后的图片如下：
在这里插入图片描述

三、识别验证码

import pytesseract
from PIL import Image
#路径前加r防止转义
path = r'C:\yzm.jpg'
img  = Image.open(path)
yzm= pytesseract.image_to_string(img)
print(yzm)

四、总结

我在第二值化处理之后发现处理后的图片几乎没有噪点，所以我这里并没有对图片进行降噪，便可直接进行识别。
如果图片噪点比较多是要对图片进行降噪再识别，可以自己在网上搜索降噪的代码。
大家要根据自身情况对图片进行处理。