下载数据集:网址
链接:https://pan.baidu.com/s/178jLtzT1vpkHiIO6QBfPwQ
提取码:xjku
本篇文章是利用Python 和Pandas对人力资源数据集进行分析。共一万多条数据
问题:工资,职业,月工时,满意度,是否离职(0-在职 1-离职),升职(0 没有升职,1升职),项目数之间有什么关系?
首先要导入需要的库:
mport numpy as np
import pandas as pd
import matplotlib.pyplot as plt
读入数据:
# 1.读入数据
data = pd.read_csv('./data/HR.csv', sep=',', encoding='gbk')
print(data.head())
结果:
satisfaction_level last_evaluation ... sales salary
0 0.38 0.53 ... sales low
1 0.80 0.86 ... sales medium
2 0.11 0.88 ... sales medium
3 0.72 0.87 ... sales low
4 0.37 0.52 ... sales low
[5 rows x 10 columns]
查看sales的类别,包括哪些工作类型
sales_unique = data.sales.unique()
print(sales_unique)
结果:
['sales' 'accounting' 'hr' 'technical' 'support' 'management' 'IT'
'product_mng' 'marketing' 'RandD']
查看数据有无缺失值
data.info()
结