最近在看唐宇迪机器学习视频,这个视频我觉得很不错,可是我资源有限,有的视频没有配套的资料、数据集或者是代码,但还是可以看视频了解其中的一些知识点。
项目介绍
该项目是通过员工对公司的满意程度、公司对员工的评估、员工薪资水平、员工岗位、员工工作时长等特征来推断员工是否会离职。
知识点
-
通过 df.info( ) 可以看到特征的数据类型,对于int64、float64这样的数据类型来说放入机器学习算法是没有问题的,但是对于object(可理解为str)这样的数据类型是需要进一步处理的。
eg: 在本项目中是利用pd.get_dummies()直接将其转为one-hot编码。部分代码如下:salary_dummy = pd.get_dummies(df['salary']) department_dummy = pd.get_dummies(df['depratment']) X = pd.concat([X, salary_dummy], axis = 1) X = pd.concat([X, department_dummy], axis = 1)
ps: 一般来说如果离散的取值之间没有大小的意义,就用one-hot,如果离散的取值之间有大小的意义就直接映射。
-
修改DataFrame中列的名字:
df.rename(columns = {'修改前的名字':'修改后的名字'}, inplace = True)
-
特征、标签之间的相关系数:
df.corr()
-
柱状图表示属性与标签之间的关系:
部分代码如下:import matplotlib