特征工程:特征选择与降维
1. 特征工程中的特征减少
在机器学习中,特征工程的核心目标之一是减少特征数量。这是因为无信息的特征会给机器学习模型带来不必要的参数,过多的参数可能导致过拟合,产生次优结果,或者需要大量的训练数据。特征减少可以通过两种主要方式实现:
- 特征选择 :明确地丢弃某些特征。
- 降维 :如果特征向量是稀疏的,将其映射到更低、更密集的维度。
此外,一些算法在内部计算中会进行特征选择,这被称为嵌入式特征选择或正则化。部分嵌入式特征选择算法还允许从模型中读取特征重要性得分。
在确定使用多少特征以及将数据进一步降维到多少维度时,通常可以通过网格搜索作为超参数搜索的一部分来解决。或者,也可以像某些案例研究那样,设置保守的估计值。
值得注意的是,由于机器学习问题的建模不佳,很多关于特征工程的讨论都集中在特征选择上,甚至有时将特征选择与特征工程等同起来。但实际上,特征工程不仅仅是特征选择,还包括归一化技术和特征扩展技术等方面。
特征选择在特征工程中备受关注的一个原因是它在误差分析中具有内在的实用性。例如,使用包装方法进行特征消融可以作为特征深入分析的起始步骤,其作用不仅仅局限于特征选择。而且,特征选择有助于构建易于理解的模型,这与误差分析相互交织,因为误差分析受益于这种易于理解的机器学习模型。不过,仅仅将特征工程称为特征选择会误导用户对其全貌的认识。
2. 特征选择
2.1 特征选择的目标
在处理机器学习问题时,从数据库或其他结构化数据源获取的实例中,往往包含与目标无关的
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



