深圳地区8月份数据分析招聘分析

本文通过对深圳数据分析招聘数据的采集和清洗,揭示了深圳数据人才需求趋势。互联网、电商等行业需求旺盛,南山区需求最集中,薪酬水平较高。1-3年经验的平均薪酬为13.2K,随着经验增长,薪酬显著提升。Python分析结果显示,福田区平均薪酬最高,且数据波动大。硕士学历在薪酬上优于本科,而大企业对数据分析人员的投入回报更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,数据采集与清洗
数据利用爬虫采集器采集。分析目的是通过数据分析,了解深圳目前的数据分析招聘情况。
原先采集的数据,有300条,数据清洗后剩下267条。数据的有效性有数据分析中具有很重要的意义,可以确保数据分析的信度与效度。
原始数据如下:
原始数据采集数据图示
数据比较脏,清洗数据是一件很麻烦的事。这里数据量整体不大,可以采用EXCEL进行处理。Excel在数据量最大可以容纳的行数是104万左右,而量大的时候会导致性能严重降低,这里几百条数据,excel可以的。
我们查看一下数据,我们比较关心的有行业,薪酬,经验,学历这些因素,因此这些数据属性的数据便成为清洗的重点。简单列出几项数据的清洗过程,
1)首先是学历。学历这里主要是分为硕士,本科,大专和不限这几种。用到的快捷技能键是ctrl+E。
在这里插入图片描述
在这里,对于城市地区而言,数据还是很规整的,利用数据下面的分列即可:
在这里插入图片描述
然后在旁边另起一列,在旁边写上匹配符号,对去除了区域后的数据Ctrl+E,快速自动填充。比如说这里第一行“1-3年本科”,旁边新列写上‘本科’,自动填充即可。如果数据有问题, 可以多写几个再填充。
2)对于薪酬,这个脏数据有点麻烦。可以利用Mid函数,提取薪酬下限。比如15-20K。可以先把K替换成空格再处理。MID函数使用如下:
在这里插入图片描述
这样就可以生成薪酬下限了。沿着列拖动一下,将结果有‘-'的删除’-‘。
对于薪酬下限,我们先找到’-‘的位置,利用find函数,示列中,返回数据为3。
在这里插入图片描述
紧接着就可以把结合mid函数进行提取薪酬上限了。如图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值