一,数据采集与清洗
数据利用爬虫采集器采集。分析目的是通过数据分析,了解深圳目前的数据分析招聘情况。
原先采集的数据,有300条,数据清洗后剩下267条。数据的有效性有数据分析中具有很重要的意义,可以确保数据分析的信度与效度。
原始数据如下:
数据比较脏,清洗数据是一件很麻烦的事。这里数据量整体不大,可以采用EXCEL进行处理。Excel在数据量最大可以容纳的行数是104万左右,而量大的时候会导致性能严重降低,这里几百条数据,excel可以的。
我们查看一下数据,我们比较关心的有行业,薪酬,经验,学历这些因素,因此这些数据属性的数据便成为清洗的重点。简单列出几项数据的清洗过程,
1)首先是学历。学历这里主要是分为硕士,本科,大专和不限这几种。用到的快捷技能键是ctrl+E。
在这里,对于城市地区而言,数据还是很规整的,利用数据下面的分列即可:
然后在旁边另起一列,在旁边写上匹配符号,对去除了区域后的数据Ctrl+E,快速自动填充。比如说这里第一行“1-3年本科”,旁边新列写上‘本科’,自动填充即可。如果数据有问题, 可以多写几个再填充。
2)对于薪酬,这个脏数据有点麻烦。可以利用Mid函数,提取薪酬下限。比如15-20K。可以先把K替换成空格再处理。MID函数使用如下:
这样就可以生成薪酬下限了。沿着列拖动一下,将结果有‘-'的删除’-‘。
对于薪酬下限,我们先找到’-‘的位置,利用find函数,示列中,返回数据为3。
紧接着就可以把结合mid函数进行提取薪酬上限了。如图: