86、特征选择:原理、应用与挑战

特征选择:原理与挑战

特征选择:原理、应用与挑战

1. 特征选择概述

特征选择是机器学习中用于选择代表数据的特征子集(维度)的过程。它可视为数据预处理的一部分,可能会接着进行特征构建,也可嵌入学习算法与学习阶段相结合。其核心假设是存在一个可用于表示数据的原始特征空间,目标是通过选择原始特征的子集来降低其维度,将原始特征空间映射到新的特征空间。

从特征结构角度来看,不同频段在信号处理中可由组来表示。融入特征结构知识能显著提升学习模型性能并辅助选择重要特征。针对结构化特征的选择算法常采用如组套索和树引导套索等稀疏学习技术。

从数据角度,数据可分为流式数据和静态数据,静态数据又可进一步分为独立同分布(i.i.d.)数据和异构数据。当前从数据角度进行特征选择的发展主要集中在流式数据和异构数据上。流式数据与流式特征类似,是按顺序到来的。为处理流式数据,提出了在线流式特征选择方法。当新数据实例到来时,在线特征选择算法需要决定:
1. 是否将新数据生成的特征添加到当前已选特征中;
2. 是否从当前已选特征集中移除某些特征。

传统数据通常被假设为 i.i.d. 数据,如文本和基因数据,但异构数据(如链接数据)显然与此假设矛盾。新类型的数据相应地催生了新类型的特征选择算法,如针对链接数据的特征选择以及多视图和多源特征选择。

2. 特征选择的应用

高维数据在现实世界中非常普遍,这使得特征选择成为各种实际应用中流行且实用的预处理技术,以下是一些具体应用场景:
|应用场景|问题描述|特征选择作用|
| ---- | ---- | ---- |
|文本聚类|文本聚类的任务是将相似文档分组。文本通常以词袋形式表示,导

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值