新手爬取51job,智联,boss网站职位信息总结和代码(小杜总结)

本文总结了新手如何爬取51job、智联招聘和BOSS直聘的职位信息,包括数据保存、爬取时间记录、增量爬取和去重机制。重点介绍了每个网站的爬取策略,如51job无限制,BOSS直聘需设置IP,智联需获取数据接口。文章还提供了详细的解析步骤、爬取思路和代码框架,并分享了相关代码链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取要求:
(1) 使用合适的数据保存手段保存爬取数据
(2) 记每条数据的爬取时间
(3) 实现数据的增量爬取
(4) 实现同时基于关键字和页面 URL 的去重元数据说明:

一 统一注意事项或建议
1 写代码时认真一些,不要因为个别的单词空格错误,过多浪费时间
2 写一步做一步,每解析一步,输出来验证一下
(因为代码量小的话,好检查一下,代码量大的话,不是不能解决,只是会太多的浪费时间)
3 网页爬取,空值没有strip(),需要大家注意一下
爬取项目网站有51job,智联招聘,boss直聘(反向思维)
1 网站要求
51job:爬取没有限制
boss直聘:需要设置IP,重点设置动态IP
智联:动态抓取,重点获取数据接口
2 爬取重点要求
翻页,详情页,算法检索,网页去重
3 前提:浏览网页
4 爬取思路(反向思维)
1)爬取内容要求(详情页def detail_parse(self),方法主要用item)
脑图画代码呈现

解析职位名称

item[‘hiring_name’] = response.xpath(此处自己解析).extract_first()

解析职位信息

item[‘position_info’] =" ".join(response.xpath(此处自己解析).extract()).strip()
#解析薪资
item[‘pay’]=response.xpath(此处自己解析).extract_first()
2)设置item,如下
在这里插入图片描述
3)获悉详情页的网址(解析下一页网址—可以同步进行,主要在def parse()中)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值