猎聘职位信息爬取:翻页

一.引入基本模块

from requests-html import HTMLSession
from urllib.parse import urlparse, parse_qs
import pandas as pd
#使用代码更加美观
import pprint

二.翻页

翻页,其实就是url不同而已,但是url不同在哪我们就要对url进行拆解才能知道

 接下来就是利用xpath把url抓取下来

 

#建立连接
url = "https://www.liepin.com/zhaopin/"
session = HTMLSession()
r = session.get( url )
#starts-with可以指定url连接开头部分,这样子可以避免抓取到无用的url,因为猎聘网有几个链接是javascript,我们要排除掉
xpath_翻页a = '//div[@class="pagerbar"]/a[starts-with(@href,"/zhaopin")]'

href_列表 = [x.xpath('//@href')[0] for x in r.html.xpath(xpath_翻页a)]
pprint.pprint(href_列表)
#使用字典存储url
#x.xpath('//@href')[0]是因为for循环输出的是一个列表,[0]才能把链接取出来
"""
href_字典={}
for x in r.html.xpath():
    href_字典[x.text]=x.xpath('//@href')[0]
"""
以上等式等于以下推导式
href_字典 = {x.text:x.xpath('//@href')[0]  for x in r.html.xpath(xpath_翻页a)}

pprint.pprint (href_字典)

这样就把链接抓取下来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值