pythton爬取智联招聘职位信息

前言

在智联招聘https://sou.zhaopin.com/时,发现无法直接去解析获得的html文本,它的数据是用js动态加载的,数据内容存储在json文件中,所以不能用以前的方法使用xpath、bs4或正则进行解析

如需用MapReduce对此数据进行清洗,请移步下方链接

优化前代码(注释详细):https://blog.youkuaiyun.com/weixin_42063239/article/details/88315036

优化后代码(只列出了优化内容):https://blog.youkuaiyun.com/weixin_42063239/article/details/88537897

分析

首先要找到获取json文件的链接

在进入到页面后F12打开Google的开发者工具,点击Network并刷新页面查看请求的资源有哪些

 可以看到此网页请求了很多资源,想要更快捷的寻找存储json数据的请求则点击ALL右边的XHR

双击查看资源发现第二条是我们要找的数据内容

 分析URL

此时我们复制地址栏的URL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值