爬取网址:www.51job.com
1.首先我们来分析需要爬取网站的情况
在51job中输入:数据分析师
2.把URL复制到一个text文本中,分析一下地址。随意的复制三页的地址,找到其中的规律。
对比分析:URL前面都是一样的,在“.html”前的数字不一样,这个数字就是对应的页面。“?”后面的一大串都是格式,对URL地址并没有影响。于是我们只需要截取“?”前的URL
3.这里使用的是谷歌浏览器,在返回结果的页面右键——检查或者使用快捷键Ctrl+shift+i。获取以下界面:
4.选择页面中的箭头按钮,快速定位需要数据的位置。
右键copy——copy xpath地址,多复制几列对比一下:
//*[@id="resultList"]/div[4]/p/span/a
//*[@id="resultList"]/div[5]/p/span/a
//*[@id="resultList"]/div[6]/p/span/a
//*[@id="resultList"]/div[7]/p/span/a
找到规律没?列表是从div[4]开始的。
5.做完准备工作,我们来测试下运行情况。现在开始写代码:
import requests
from lxml import etree
import time
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html'
da