又是一年毕业季,什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初,含有32万条数据(行)、19个详细招聘信息(列)的数据进行招聘信息的知识发现、挖掘。
数据部分截图如下:
需要完成的工作
1、数据预处理;
2、每个行业的招聘次数、平均工资分析;
3、学历要求与平均工资分析;
4、不同工作经验的招聘次数、平均工资分析;
5、不同职位的发展前景分析;
6、不同地域招聘次数、平均工资分析。
下面分别从以上这几方面展开分析。
1、数据预处理
(1)、读入数据并且去掉不会用到的字段(比如公司福利、Url等)。
(2)、这里需要根据读入的原始数据的工资范围简单计算平均工资,并且处理人数字段为数值型,便于后面的计算。
平均工资 = (工资最大+工资最小)/2
本来想对不同行业描述做分词处理,继而进行词云分析,发现停词后每个词频都很小,几乎都为1,词云效果很差感觉这里行业描述文本挖掘或