写在前面的话:爬虫有风险,使用需谨慎(应当遵守行业道德及职业操守,遵守国家法律法规。以下内容均是在此前提下进行操作)
反爬技术基本有:
模拟登陆,模拟浏览器,代理服务器......文章在持续更新总结梳理中......
1.代理服务器的设置
目的:防止自有IP地址被屏蔽
推荐免费的代理服务器列表:
http://www.xicidaili.com/
建立自定义函数,利用代理服务器爬取网页内容
#代理服务器设置
import urllib.request
def use_proxy(url,proxy_addr): #定义一个具有代理服务器功能的函数
proxy=urllib.request.ProxyHandler({"http":proxy_addr})
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) #添加代理IP
urllib.request.install_opener(opener) #安装opener为全局变量
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
#用"ignore"忽略编码错误问题
return data
proxy_addr="106.56.102.102:808"