9、特征选择技术全解析

study

于 2025-11-21 12:20:38 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏： MATLAB模式识别实战文章标签：特征选择离群点去除数据归一化

本文链接：https://blog.youkuaiyun.com/study/article/details/155291692

MATLAB模式识别实战专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

特征选择技术全解析

1. 引言

在分类系统设计中，从大量可用特征里挑选出一个子集是关键步骤。其目标是选出对当前分类问题有丰富区分信息的特征。因为特征选择不当会使分类器性能变差，所以选择高信息含量的特征很重要。这不仅能让不同类在特征空间中距离更远（类间距离大），还能让同一类的数据点更紧密（类内方差小）。

此外，还需从原始的 $m$ 个特征中选择 $l$ 个特征（$m > l$）。减少特征数量有助于避免过拟合训练数据集，使分类器有更好的泛化性能，也就是在处理训练集外的数据时表现良好。$l$ 的选择很大程度上取决于可用训练模式的数量 $N$。

在使用特征选择技术前，要进行预处理，比如去除离群点和数据归一化。

2. 离群点去除

离群点是远离对应随机变量均值的点。这些值与其他数据差异大的点，在分类器训练阶段可能导致较大误差，尤其是由噪声测量产生的离群点。

对于正态分布的数据，常用 1、2 或 3 倍标准差作为阈值来定义离群点，将偏离均值超过该阈值的点去除。对于非正态分布的数据，则需采用更严格的方法，如成本函数。

示例 4.2.1

以下是生成数据、添加离群点、识别并打印离群点及其索引的代码：

% 生成数据集
randn('seed',0);
m=1; var=0.16;
stdevi=sqrt(var);
norm_dat=m+stdevi*randn(1,100);

% 生成离群点
outl=[6.2 -6.4 4.2 15.0 6.8];

% 在数据末尾添加离群点
dat=[norm_dat

会员秒杀 ¥9.9 重磅福利

超级会员免费看