目的:数据分析师是一个什么样的岗位?它的工资和薪酬是多少?哪类公司更会招聘数据分析师?
主要内容包括数据读取,数据概述,数据清洗和整理,分析和可视化
首先载入数据,此数据是18年3月份在拉勾网上爬取的有关数据分析师的职位信息
import numpy as np
import pandas as pd
data = pd.read_csv(r'D:\Users\Desktop\jobdata.csv')
data
因有些信息此次分析并不会用到,只选取需要的信息,进行后续分析
data = data[['city','positionName','companyShortName','workYear','education','companyLabelList','companySize','financeStage','industryField','salary','positionAdvantage','firstType','secondType']]
data
进行去重:drop_duplicates函数通过subset参数选择根据positionName和companyShortName 这两列为基准去重,keep参数则是保留方式,first是保留第一个,删除后余重复值。通过结果发现公司和职位重复的数量有将近1000个
data = data.drop_duplicates(subset = [