python数据爬虫——数据分析师岗位基本信息爬取(一)

爬取网址:www.51job.com
1.首先我们来分析需要爬取网站的情况
在51job中输入:数据分析师
在这里插入图片描述
2.把URL复制到一个text文本中,分析一下地址。随意的复制三页的地址,找到其中的规律。
在这里插入图片描述
对比分析:URL前面都是一样的,在“.html”前的数字不一样,这个数字就是对应的页面。“?”后面的一大串都是格式,对URL地址并没有影响。于是我们只需要截取“?”前的URL
在这里插入图片描述
3.这里使用的是谷歌浏览器,在返回结果的页面右键——检查或者使用快捷键Ctrl+shift+i。获取以下界面:
在这里插入图片描述
4.选择页面中的箭头按钮,快速定位需要数据的位置。
在这里插入图片描述
右键copy——copy xpath地址,多复制几列对比一下:

//*[@id="resultList"]/div[4]/p/span/a
//*[@id="resultList"]/div[5]/p/span/a
//*[@id="resultList"]/div[6]/p/span/a
//*[@id="resultList"]/div[7]/p/span/a

找到规律没?列表是从div[4]开始的。

5.做完准备工作,我们来测试下运行情况。现在开始写代码:

import requests
from lxml import etree
import time

url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html'
da
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值