爬取要求:
(1) 使用合适的数据保存手段保存爬取数据
(2) 记每条数据的爬取时间
(3) 实现数据的增量爬取
(4) 实现同时基于关键字和页面 URL 的去重元数据说明:
一 统一注意事项或建议
1 写代码时认真一些,不要因为个别的单词空格错误,过多浪费时间
2 写一步做一步,每解析一步,输出来验证一下
(因为代码量小的话,好检查一下,代码量大的话,不是不能解决,只是会太多的浪费时间)
3 网页爬取,空值没有strip(),需要大家注意一下
爬取项目网站有51job,智联招聘,boss直聘(反向思维)
1 网站要求
51job:爬取没有限制
boss直聘:需要设置IP,重点设置动态IP
智联:动态抓取,重点获取数据接口
2 爬取重点要求
翻页,详情页,算法检索,网页去重
3 前提:浏览网页
4 爬取思路(反向思维)
1)爬取内容要求(详情页def detail_parse(self),方法主要用item)
脑图画代码呈现
解析职位名称
item[‘hiring_name’] = response.xpath(此处自己解析).extract_first()
解析职位信息
item[‘position_info’] =" ".join(response.xpath(此处自己解析).extract()).strip()
#解析薪资
item[‘pay’]=response.xpath(此处自己解析).extract_first()
2)设置item,如下
3)获悉详情页的网址(解析下一页网址—可以同步进行,主要在def parse()中)