一、Ddddocr简介
ddddocr(Deep Double-Digital Digits OCR)是一个基于深度学习的OCR(Optical Character Recognition,光学字符识别)库,用于从图像中提取文本,尤其擅长处理验证码、票据、表单数据提取、文档自动化处理等场景。主要用户已下三种:
- 自动化测试 :自动填写网页验证码,提升测试效率。
- 数据采集 :从截图或文档中提取结构化文本。
- 安全验证 :辅助处理点选验证码(如移动端登录)。
二、安装与使用
pip install ddddocr #使用pip安装
或者
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple/
2.1 用法-1
# 我用到的是这种,识别验证码图片
import ddddocr
ocr = ddddocr.DdddOcr()
with open('image.png', 'rb') as f:
img_bytes = f.read()
res = ocr.classification(img_bytes)
print(res)
#代码执行介绍
使用时需要调用DdddOcr()先创建一个文字识别对象,
然后用with open()方法将验证码图片以二进制方式读取,
接着调用classification()方法将图片的二进制字节类型进行文字识别,
识别出来的文字会返回到变量之中。
2.2 用法-2
from ddddocr import DDDOCR
ocr = DDDOCR()
result = ocr.ocr('image.png', cls=True)
for line in result:
print(line)
三、识别验证码有哪些方法
识别验证码:
第1种方法:Python使用通用识别OCR库:ddddocr识别验证码(亲测好用)
第2种方法:python+pytesseract+Tesseract-OCR识别验证码(不好用,各种问题,最后放弃)
第3种方法:基于OCR.space API识别图片文字(未尝试)
第4种方法:基于easyocr识别图片文字(未尝试)