深圳地区8月份数据分析招聘分析_深圳求职信息数据建模分析博客-优快云博客

本文链接：https://blog.youkuaiyun.com/Hill_L/article/details/98844038

本文通过对深圳数据分析招聘数据的采集和清洗，揭示了深圳数据人才需求趋势。互联网、电商等行业需求旺盛，南山区需求最集中，薪酬水平较高。1-3年经验的平均薪酬为13.2K，随着经验增长，薪酬显著提升。Python分析结果显示，福田区平均薪酬最高，且数据波动大。硕士学历在薪酬上优于本科，而大企业对数据分析人员的投入回报更优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，数据采集与清洗
数据利用爬虫采集器采集。分析目的是通过数据分析，了解深圳目前的数据分析招聘情况。
原先采集的数据，有300条，数据清洗后剩下267条。数据的有效性有数据分析中具有很重要的意义，可以确保数据分析的信度与效度。
原始数据如下:
原始数据采集数据图示
数据比较脏，清洗数据是一件很麻烦的事。这里数据量整体不大，可以采用EXCEL进行处理。Excel在数据量最大可以容纳的行数是104万左右，而量大的时候会导致性能严重降低，这里几百条数据，excel可以的。
我们查看一下数据，我们比较关心的有行业，薪酬，经验，学历这些因素，因此这些数据属性的数据便成为清洗的重点。简单列出几项数据的清洗过程，
1）首先是学历。学历这里主要是分为硕士，本科，大专和不限这几种。用到的快捷技能键是ctrl+E。
在这里插入图片描述
在这里，对于城市地区而言，数据还是很规整的，利用数据下面的分列即可：

然后在旁边另起一列，在旁边写上匹配符号，对去除了区域后的数据Ctrl+E，快速自动填充。比如说这里第一行“1-3年本科”，旁边新列写上‘本科’，自动填充即可。如果数据有问题，可以多写几个再填充。
2）对于薪酬，这个脏数据有点麻烦。可以利用Mid函数，提取薪酬下限。比如15-20K。可以先把K替换成空格再处理。MID函数使用如下：
在这里插入图片描述
这样就可以生成薪酬下限了。沿着列拖动一下，将结果有‘-'的删除’-‘。
对于薪酬下限，我们先找到’-‘的位置，利用find函数，示列中，返回数据为3。

紧接着就可以把结合mid函数进行提取薪酬上限了。如图：