数据分析--对“数据分析”相关岗位的综合分析

对“数据分析”相关岗位的综合分析

  1. 数据来源:拉勾网(爬虫)查看爬虫代码
  2. 关键字:数据分析
  3. 样本量:1631条
  4. 截至日期:2019-07-15

目的

  • “数据分析”职位在各城市招聘数量分布
  • 总体薪资以及应届生薪资分布
  • 工作经验对于薪资的影响
  • 相同工作经验下,学历对薪资的影响
  • 北京本科应届生及不限经验的平均工资统计
  • 应聘者需要掌握哪些技能
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import pymysql
% matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
# 加载数据
conn = pymysql.connect(host = "127.0.0.1", 
	port = 3306, 
	user = "root",
	password = "123456", 
	db = "test", 
	charset = "utf8"
)
sqldata = pd.read_sql('SELECT * FROM lagou', conn)
sqldata.head(2) # 查看数据
sqldata.to_csv("拉勾数据分析.csv", encoding='utf_8_sig') # 导出

数据清洗

sqldata.isnull().sum() # 查看缺失值
sqldata.info() # 查看信息

共1631个值,经纬度(longitude, latitude)缺失部分数据,标签项(hitags)数据严重缺失,但对此次分析并无影响

# 分割工资
spllist = sqldata['salary'].str.replace("k",'').str.replace("K",'').str.split('-')
# 取平均值
ee = (spllist.str[0].astype('int') + spllist.str[1].astype('int'))/2
sqldata.drop('salary',axis=1)
sqldata['salary'] = ee
# 查看异常值
sqldata[sqldata['salary']>200]
# 删除异常值
sqldata.drop(sqldata[sqldata['salary']>200].index,inplace=True)

各城市招聘数量分布

city_series = sqldata['city'].value_counts()
fig,ax=plt.subplots(figsize=(10,5))
ax.bar(city_series.index,city_series)
ax.set_title("各城市招聘数量分布",fontsize=17)
for a,b in zip(city_series.index,city_series):
    plt.text(a, b+1.5, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)
plt.xticks(np.arange(len(city_series)),city_series.index)
plt.xlabel('地区', size=12);
plt.ylabel('频数', size=12);
plt.ylim(0,520)
plt.show()

在这里插入图片描述

  • 由上图所示,“数据分析”这一职业,主要分布在北京、上海、深圳、广州、杭州,其他城市需求较少
  • 总体来看,发布此岗位招聘信息的地区主要为一线发达城市。

薪资分布情况

总体薪资分布情况

sqldata['salary'].hist(figsize=(10,5),bins = 30, edgecolor='k', grid = False, )
plt.xlabel('薪资(千/月)', size=12</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值