Python爬取的BOSS直聘的数据

最新推荐文章于 2025-03-17 15:55:22 发布

编程IT圈

最新推荐文章于 2025-03-17 15:55:22 发布

阅读量1.5k

点赞数

文章标签： python 机器学习人工智能 java 编程语言

本文分析了计算机视觉领域的招聘趋势，揭示了深度学习、机器学习等技能的重要性，展示了薪资及经验要求分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

临近年末，“互联网寒冬”的来临让大家倍感压力，大家纷纷感叹寒冬将至。但是，越是这个时候，越要明确自己的奋斗目标，不断的充实自己，提高自己的能力，为找工作打下坚实的基础。

本次我们爬取了招聘网站上关于计算机视觉方向的招聘信息，并对于招聘信息进行分析，看一下目前计算机视觉方向对于应聘者的需求如何。

首先招聘信息的爬取采用的是selenium 库，对boss 直聘招聘网站进行爬取，因为网站对于反爬的验证码比较复杂，即便是利用tesserocr 来对这种验证码识别的也很难将其识别准确，因此直接采用selenium库，对于网页信息进行爬取。对于验证码仍需要人工来进行识别并进行操作。但是由于爬取的过程中，对网页进行了模拟浏览过程，因此几乎不会产生反爬环节。

对于招聘信息的提取首先是打开我们所要查询的招聘方向的链接，这里我们查询的是计算机视觉方向(自己更改所需即可)，然后针对每一页上的每一个招聘链接，在新的网页进行打开，然后爬取其网页信息。整体的运行效果图如下动图所示。

对于每一个招聘链接，利用BeautifulSoup进行网页信息的提取，并将其保存到csv文件当中，具体代码如下图所示。

完整代码获取见文末

这里我们爬取了招聘信息中，对于应聘者的学历、经验的要求，以及招聘者提出的工作要求和薪金待遇以及工作地点。将爬取后的信息保存为csv文件放到根文件夹下，至此爬取招聘信息的工作便完成。爬取的信息如下如所示。

首先，我们想观察一下目前招聘者对于应聘者的工作要求，因此为了更加直观的展示工作要求，我们采用词云的形式，对于工作要求中的关键词进行展示。

采用词云的优势在于：第一，展示起来比较美观，第二是出现频率越高的关键词，其字体也越大，因此更能直观的进行展示。

对于爬取得到的信息，利用pandas进行读取，然后将“工作要求”一项进行提取后，采用jieba进行分析，并结合WordCloud库进行展示，得到的结果如下如所示。

由词云我们可以看出，目前计算机视觉领域深度学习技术是最杯招聘者所看重的一项技能，因此它的出现频率也是最高的。其次对于机器学习、图像处理技术也要进行掌握，并能达到熟练掌握的程度。如果有小伙伴想要进军计算机视觉领域的话，那么上述的词云所体现的信息，将会对你有很大的帮助，在处理完“工作需求之后”，我们还对大家普遍关心的“工资”水平和“经验”要求进行了分析。

由于招聘者对于工资都是提供一个大概的范围，因此，这里我们采取招聘者提供的平均工资来作为我们的“工资”数据，根据平均工资的最大值跟最小值将工资分为五类，可视化数据如下图所示。

由工资图可以看出，目前计算机视觉领域的工资水平大都集中在20K到30K之间，还是一个相当不错的工资水平。

对于经验的分析，我们也进行了分析，如下图所示。

由上图可以看出，招聘者对于应聘者的经验还是十分看重的，因此如果小伙伴是在校生的话，还是抓住机会出去实习，增长自己的经验吧。

完整代码和爬取结果 csv 文件，在后台回复关键词 boss 即可

扫码回复“boss”????

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。