ORT识别Captcha【记录】

本文介绍了一种使用tesseract-ocr库识别论坛登录验证码的方法。通过图像处理技术如二值化、线性灰度变换等提高识别准确率,对于较复杂的验证码还可以采用中值滤波等手段进一步净化图像。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

心血来潮, 想识别一下一般论坛里登录的验证码,类似于这样的

网上有一个tesseract-ocr库,是一个OCR 引擎。

此引擎的优点重复下,字母类语言的识别率几乎可达100%,前提是图像最好黑白(二值化过地),噪点少地图,测试时发现每个字符的高度必须在10个像素以上才能识别.
      增强识别率的关键是要识别的验证码图片越干净越好,为此准备了六种图像过滤,用以滤干净图像,有:图像二值化,锐化,中值滤波,线性灰度变换,转黑白灰度图,放大(非平滑缩放).

    一般干扰不太严重的验证码,如支付宝使用图像二值化和线性灰度变换就可以做到100%识别,有噪点的才需要中值滤波.

使用这六种过滤的组合应该可以搞定大部分比较弱智的验证码。

插播一段:

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

 

Ruby gem  rtesseract

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值