唐宇迪机器学习之离职预测

不服输的南瓜

于 2018-11-17 19:02:00 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： python机器学习文章标签：唐宇迪机器学习员工离职预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40283816/article/details/84191228

该项目通过员工满意度、公司评价、薪资、岗位和工作时长等特征预测员工离职。视频讲解了如何处理object类型数据，使用one-hot编码，展示了特征与标签的相关性，用柱状图和饼状图进行数据可视化，并进行了数据划分、标准化及训练集交叉验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在看唐宇迪机器学习视频，这个视频我觉得很不错，可是我资源有限，有的视频没有配套的资料、数据集或者是代码，但还是可以看视频了解其中的一些知识点。

项目介绍

该项目是通过员工对公司的满意程度、公司对员工的评估、员工薪资水平、员工岗位、员工工作时长等特征来推断员工是否会离职。

知识点

通过 df.info( ) 可以看到特征的数据类型，对于int64、float64这样的数据类型来说放入机器学习算法是没有问题的，但是对于object(可理解为str)这样的数据类型是需要进一步处理的。
eg: 在本项目中是利用pd.get_dummies()直接将其转为one-hot编码。部分代码如下：
```
salary_dummy = pd.get_dummies(df['salary'])
department_dummy = pd.get_dummies(df['depratment'])
X = pd.concat([X, salary_dummy], axis = 1)
X = pd.concat([X, department_dummy], axis = 1)
```
ps: 一般来说如果离散的取值之间没有大小的意义，就用one-hot，如果离散的取值之间有大小的意义就直接映射。

修改DataFrame中列的名字：

df.rename(columns = {'修改前的名字'：'修改后的名字'}, inplace = True)

特征、标签之间的相关系数：
```
df.corr()
```
柱状图表示属性与标签之间的关系：
部分代码如下：
```
import matplotlib
```

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。