学习笔记,,备忘录。。。
内容来源:知乎:特征工程到底是什么?
- 实际应用中的数据往往很多,并存在不相关的特性,特性之间也可能存在相互依赖。
- 通过特征选择剔除不相关或冗余的特征,减少特征个数,减少运行时间的目的。
- 数据预处理后,需要选择有意义的特征,然后再输入机器学习的算法和模型进行训练。
一、相关系数法
- 计算各个特征对目标值的相关系数,选择更加相关的特征。
原始数据:
步骤说明:
- 导入数据
- 使用SelectKBest类,通过回归的方法,确定选择几个特征值
- 选择自变量,调用fit_transform()方法
- 把自变量和因变量传入,选择相关度比较高的两个变量
- 通过get_support()方法获得相应的列名
示例代码:

二、递归特征消除法
使用基模型进行多轮训练,指定需要的特征数。
原始数据:

在自然语言处理(NLP)的数据预处理后,特征选择至关重要。通过相关系数法、递归特征消除(RFE)以及模型选择法,可以去除不相关和冗余特征,提高机器学习算法的效率。相关系数法计算特征与目标值的关联度,RFE利用基模型迭代训练来确定最优特征,而模型选择法则根据预先训练的模型自动选择最佳特征。
最低0.47元/天 解锁文章
1335

被折叠的 条评论
为什么被折叠?



