此爬虫的中各个函数的作用:
1.初始化函数
基础的url地址,请求头,用来记录HTML源代码属性,total_page总页数
2.start函数
爬虫的主函数
3.get_html函数
根据url地址获取html源代码,转换为str类型,并赋值得self.html
4.parse_total函数
从html源代码中根据正则提取职位总个数,计算总页码,math.ceil()向上取整
5.parse_info函数
根据总页码。获取每一页的html源代码,根据正则提取职位信息,并对数据进行简单的清洗工作
将数据存储到表格中
6.filter函数
将正则匹配到的数据进行清洗,把多余的数据剔除
引入需要的包
import re
from urllib import request, parse
# xlwt操作excel表格
import xlwt
from random import choice
声明一个爬虫类