tesseract 图片验证码初级

本文介绍如何利用Tesseract OCR工具识别图片中的文字。首先,需将图片另存为.png格式,下载并安装Tesseract,配置环境变量,然后通过Python的pytesseract库进行图片文字识别。文中提供了详细的步骤和代码示例。

另存为图片,后缀名.png
下载tesseract
配置环境变量 上方新建第一空 TESSDATA_PREFIX 第二空找到tesseract.exe 右键属性,安全–对象属性
ctrl+左键 pytesseract 进入修改路径 C:\Tesseract-OCR\tesseract.exe 改成双斜杠
代码:

import pytesseract
from PIL import Image

# image = Image.open('code.png')
image = Image.open('code4.png')
# image1 = Image.open('code.png')
# image.show()

tesseract_data = '--tessdata-dir "C:\\Tesseract-OCR\\tessdata"'
#彩色图变成灰度图
image = image.convert('L')
# image.show()

#取出干扰线
# threshold = 170
threshold = 125
table = []
for i in range(256):
    if i<threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table,'1')
# image.show()
image_str = pytesseract.image_to_string(image,config=tesseract_data)
print(image_str)

运行结果
E:\project\python.exe C:/Users/Administrator/Desktop/四阶xpat爬虫系列/Requests/Requests01/Requests01/day14/demo_tesseract.py
KVGi

Process finished with exit code 0

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值