爬虫验证码的识别

本文探讨了在不同场景下验证码的识别方法,包括使用tesseract-ocr和云打码服务,以及结合selenium和requests库实现自动识别的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

验证码的识别

  • tesseract-ocr 也是个比较好的,但我还是选择借用云打码,会方便不少
url不变,验证码不变(例如豆瓣登陆)
  • 请求验证码的地址,获得响应,识别
url不变,验证会变
  • 思路:对方服务器返回验证码的时候,会和每个用户的信息和验证码进行一个对应,之后在用户发送post请求的时候, 会对比post请求中发的验证码和当前用户真正存储在服务器端的验证码是否相同
    – 1. 实例化session
    – 2. 使用session请求登陆页面,获取验证码的地址
    – 3. 使用session请求验证码,识别
    – 4. 使用session发送post请求
  • 使用selenium 登录,遇到验证码
    • url不变,验证码不变,同上
    • url不变,验证会变
      – 1.selenium请求登录页面
      – 2.获取登录页面中的driver中的cookie,交给requests发送请求,识别
      – 3.输入验证码,点击登录
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值