Python之网络爬虫（验证码、代理IP、防反爬策略、封装一个抓取页面的函数）

最新推荐文章于 2024-08-13 19:01:32 发布

原创

最新推荐文章于 2024-08-13 19:01:32 发布 · 594 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据抓取爬虫 jsoup #Python爬虫 #python 新浪爬虫新浪微博 selenium 源码 #网络数据

文章目录

一、使用tesseract做OCR验证码识别

1、cookie, session的作用
用户曾经访问过个这个网站，我们需要在HTTP协议之外用一些额外的信息和技术来标识这个用户曾经来过为了让用户体验更好;所以我们的爬虫程序可以巧妙的利用这个漏洞来达到登录获取信息的效果。

2、安装tesseract
pip install pytesseract

3、测试tesseract
1）from pytesseract import *
2）然后，在captchaTest. py程序中有一张验证码的图片
3）去噪音，找出验证码的色彩;
4）背景色与前景色的区分;
5）提取出一个个字符;
6）使用余弦相似度来计算两个字符之间的相似，
https: L /blog. csdn. net /whi terbear/article/details .
7）得到当前字符最大概率匹配的样本集中的字

4、注意
验证码这一关是涉及机器学习方面的内容，里面的水很深，因此处理验证码时一定要考虑好时间成本。如果图像识别技术实在搞不定验证码这一关，可以选择使用打码平台，最终都无法解决，那也只能手动输入了。

5、打码平台运作的方式
1）首先在打码平台注册账号，获取到合法的Key, ID等信息；
2）使用这些Key， ID去调对方的API：读取文件成字节流，做一次Base64转码，去调API接口，返回结果；
3)）到结果，进行下一-步操作；如果出错，根据返回结果来判断如果排错。

二、代理服务器设置

1、代理服务器：借助别人的手来完成访问，将自己的ip地址给伪装起来，爬虫时不会被服务器发现恶意访问

2、设置代理服务器IP：打开控制面板的Internet选项，点连接，设置，代理服务器，输入对应的地址和端口号（port）

3、IP和MAC地址的区别
HTTP数据包在传递过程，源地址和目标地址是不变的。填写的是IP地址，发包过程中经历各个路由器使用的是MAC地址，不同的路由器就有不同的物理地址，即MAC地址，因此这个MAC地址是不断变化的。

4、代理服务器使用方法

# 使用代理服务器来访问：ProxyHandler需要接受的是一个字典
import urllib.request

def use_http_proxy(proxy_addr, url):
    # 构造代理服务区的handler
    proxyH = urllib.request.ProxyHandler({
   
   "https":proxy_addr})
    #创建一个Http 的opener
    opener = urllib.request.build_opener(proxyH,
                                urllib.request.HTTPHandler)
    # 把构造出来的opener载入到全局的urllib里
    urllib.request.install_opener(opener)
    # 发起Http请求：设置超时为6秒（超过6秒没有反应就报错）
    res = urllib.request.urlopen(url,timeout=6)
    # 读取信息
    data = res.read()