特征选择:原理、应用与挑战
1. 特征选择概述
特征选择是机器学习中用于选择代表数据的特征子集(维度)的过程。它可视为数据预处理的一部分,可能会接着进行特征构建,也可嵌入学习算法与学习阶段相结合。其核心假设是存在一个可用于表示数据的原始特征空间,目标是通过选择原始特征的子集来降低其维度,将原始特征空间映射到新的特征空间。
从特征结构角度来看,不同频段在信号处理中可由组来表示。融入特征结构知识能显著提升学习模型性能并辅助选择重要特征。针对结构化特征的选择算法常采用如组套索和树引导套索等稀疏学习技术。
从数据角度,数据可分为流式数据和静态数据,静态数据又可进一步分为独立同分布(i.i.d.)数据和异构数据。当前从数据角度进行特征选择的发展主要集中在流式数据和异构数据上。流式数据与流式特征类似,是按顺序到来的。为处理流式数据,提出了在线流式特征选择方法。当新数据实例到来时,在线特征选择算法需要决定:
1. 是否将新数据生成的特征添加到当前已选特征中;
2. 是否从当前已选特征集中移除某些特征。
传统数据通常被假设为 i.i.d. 数据,如文本和基因数据,但异构数据(如链接数据)显然与此假设矛盾。新类型的数据相应地催生了新类型的特征选择算法,如针对链接数据的特征选择以及多视图和多源特征选择。
2. 特征选择的应用
高维数据在现实世界中非常普遍,这使得特征选择成为各种实际应用中流行且实用的预处理技术,以下是一些具体应用场景:
|应用场景|问题描述|特征选择作用|
| ---- | ---- | ---- |
|文本聚类|文本聚类的任务是将相似文档分组。文本通常以词袋形式表示,导
特征选择:原理与挑战
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



