
#这里只分析主要的思路和要注意的点。有什么不懂的可以评论提问,研究给出的代码理解。
##1.通过在前程无忧上面输入关键字搜索可以发现,前程无忧的数据不是ajax加载的,是普通的一个get请求,只需要构造url发送请求,编写解析的规则就可以了,这里推荐采用xpath编写解析的规则。解析这些非结构性的数据首先考虑xpath,xpath不行的话就用正则。获取最大爬取页码数据只需要通过xpath定位那个最大页数就可以了,然后把那个数字提取出来,在写个if判断。
2.代码的实现如下
#_author:'DJS'
#date:2018-11-19
import csv
import re
import requests
from lxml import etree
headers = {
"cache-control": "no-cache",
"postman-token": "72a56deb-825e-3ac3-dd61-4f77c4cbb4d8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",
}
def get_url(key1):
try:
i=0
url = "https://search.51job.com/list/030800%252C040000%252C030200,000000,0000,00,9,99,{},2,1.html"
response = re