前言
在智联招聘https://sou.zhaopin.com/时,发现无法直接去解析获得的html文本,它的数据是用js动态加载的,数据内容存储在json文件中,所以不能用以前的方法使用xpath、bs4或正则进行解析
如需用MapReduce对此数据进行清洗,请移步下方链接
优化前代码(注释详细):https://blog.youkuaiyun.com/weixin_42063239/article/details/88315036
优化后代码(只列出了优化内容):https://blog.youkuaiyun.com/weixin_42063239/article/details/88537897
分析
首先要找到获取json文件的链接
在进入到页面后F12打开Google的开发者工具,点击Network并刷新页面查看请求的资源有哪些
可以看到此网页请求了很多资源,想要更快捷的寻找存储json数据的请求则点击ALL右边的XHR
双击查看资源发现第二条是我们要找的数据内容
分析URL
此时我们复制地址栏的URL