爬取思路
由于Boss直聘搜索职位不需要登陆,所以不涉及模拟登陆、cookies的问题,但是由于他会对同一时间访问过于频繁的ip进行验证,故而需要使用ip池。
整理思路大致如下:
1.使用ip池ip,boss首页搜索关键词,得到职位列表
2.根据职位列表中的url,分别爬取每个职位的详细数据
3.将爬取信息保存在mongo数据库内
网页代码分析
首先进入Boss直聘官网,搜索关键词“数据”,如图所示
职位列表网址:Boss直聘重庆地区数据岗位列表
分析网站源代码,发现十分的规整:
打开其中一个职位详情页面,里面就是这次所需要爬取的信息。
源代码
i