特征选择技术全解析
1. 引言
在分类系统设计中,从大量可用特征里挑选出一个子集是关键步骤。其目标是选出对当前分类问题有丰富区分信息的特征。因为特征选择不当会使分类器性能变差,所以选择高信息含量的特征很重要。这不仅能让不同类在特征空间中距离更远(类间距离大),还能让同一类的数据点更紧密(类内方差小)。
此外,还需从原始的 $m$ 个特征中选择 $l$ 个特征($m > l$)。减少特征数量有助于避免过拟合训练数据集,使分类器有更好的泛化性能,也就是在处理训练集外的数据时表现良好。$l$ 的选择很大程度上取决于可用训练模式的数量 $N$。
在使用特征选择技术前,要进行预处理,比如去除离群点和数据归一化。
2. 离群点去除
离群点是远离对应随机变量均值的点。这些值与其他数据差异大的点,在分类器训练阶段可能导致较大误差,尤其是由噪声测量产生的离群点。
对于正态分布的数据,常用 1、2 或 3 倍标准差作为阈值来定义离群点,将偏离均值超过该阈值的点去除。对于非正态分布的数据,则需采用更严格的方法,如成本函数。
示例 4.2.1
以下是生成数据、添加离群点、识别并打印离群点及其索引的代码:
% 生成数据集
randn('seed',0);
m=1; var=0.16;
stdevi=sqrt(var);
norm_dat=m+stdevi*randn(1,100);
% 生成离群点
outl=[6.2 -6.4 4.2 15.0 6.8];
% 在数据末尾添加离群点
dat=[norm_dat
超级会员免费看
订阅专栏 解锁全文
1213

被折叠的 条评论
为什么被折叠?



