目录
1)引言
俗话说金三银四,如今四月已快过一半,不知道想要找实习的小伙伴们是否收到了自己心仪的offer。实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划。那么,一份好的实习应该考量哪些因素呢?
我从实习僧网站爬取了5000条全国互联网行业的职位信息(时间节点04/12),下面开始从职位、薪资、地点、时长四个维度进行分析。
2)数据获取与分析
数据获取工具
-
主要工具:Python 3.6、Excel2016
-
涉及爬虫库:requests、Beautiful Soup
-
涉及反爬虫库:fontTools.ttLib
-
涉及可视化库:matplotlib、wordcloud、pyecharts
部分代码
-
获取页面源码
用Beautifl Soup解析,获取所需信息
- 使用反爬虫手段对解析页面的数据进行清洗
(爬虫是一段自动获取网站数据的程序,一些网站为了保护数据或者避免爬虫过多对服务器造成太大压力就使用了反爬虫技术,在我们所获取信息的实习僧网站就用了反爬虫技术。)
- 最终数据大览