使用python的多进程+协程爬取链家所有租房信息
一、首先完成每张网页的源代码爬取
代码的功能和解释写在代码注释中
def urlgo(url):
#使用ssl模块,主要是为了能爬取https开头的网站
context = ssl._create_unverified_context()
#爬取网页时加上请求头,模拟正常访问网页
header = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
requset = urllib.request.Request(url, headers=header)
response = urllib.request.urlopen(requset, context=context)
data = response.read().decode("utf-8")
#返回值为网页的源代码
return data
二、获取网页中所有的页码,并再次爬取
def getpage(url):
'''
:param url: 该参数为某个地区的网址
:return: 指定地区的最大页码
'''
data = urlgo(url)
pageList = re.findall(r'data-totalPage=(\d{1,3})',data