
爬虫
爱晒太阳的猫丶
A STUDENT
展开
-
Scrapy小白爬取智联校园招聘
前言掌握了一部分爬虫基础后开始学习Scrapy分布式爬虫,最初觉得会很难,以为分布式就是像hadoop分布式部署一样去配置很多文件,后来发现Scrapy相比普通python爬虫逻辑更简单,速度更快,还不容易被封IP,但是由于学的时间较短,并没有深入学习scrapy,简单记录一下爬取智联校园招聘部分数据的过程scrapy库的安装(这部分是废话,还是自行百度吧)安装Scrapy库时想都没想...原创 2019-03-07 09:33:51 · 1124 阅读 · 3 评论 -
pythton爬取智联招聘职位信息
前言在智联招聘https://sou.zhaopin.com/时,发现无法直接去解析获得的html文本,它的数据是用js动态加载的,数据内容存储在json文件中,所以不能用以前的方法使用xpath、bs4或正则进行解析如需用MapReduce对此数据进行清洗,请移步下方链接优化前代码(注释详细):https://blog.youkuaiyun.com/weixin_42063239/article...原创 2019-03-13 09:59:26 · 1093 阅读 · 0 评论 -
MapReduce数据去空去重进阶版及数据乱码解决方法
前言之前写过一篇MapReduce对CSV文件去空去重,虽然能实现功能但是还有很多地方需要改进,刚好有新爬好的智联招聘的职位信息,所以再来一遍,爬取智联招聘的代码链接https://blog.youkuaiyun.com/weixin_42063239/article/details/88524079这里只对职位名称或职位描述字段为空的数据删除,因为爬出来的数据比较规范没有空值和重复值,可以自己人为制...原创 2019-03-13 18:14:30 · 1827 阅读 · 0 评论