9、特征选择技术全解析

特征选择技术全解析

1. 引言

在分类系统设计中,从大量可用特征里挑选出一个子集是关键步骤。其目标是选出对当前分类问题有丰富区分信息的特征。因为特征选择不当会使分类器性能变差,所以选择高信息含量的特征很重要。这不仅能让不同类在特征空间中距离更远(类间距离大),还能让同一类的数据点更紧密(类内方差小)。

此外,还需从原始的 $m$ 个特征中选择 $l$ 个特征($m > l$)。减少特征数量有助于避免过拟合训练数据集,使分类器有更好的泛化性能,也就是在处理训练集外的数据时表现良好。$l$ 的选择很大程度上取决于可用训练模式的数量 $N$。

在使用特征选择技术前,要进行预处理,比如去除离群点和数据归一化。

2. 离群点去除

离群点是远离对应随机变量均值的点。这些值与其他数据差异大的点,在分类器训练阶段可能导致较大误差,尤其是由噪声测量产生的离群点。

对于正态分布的数据,常用 1、2 或 3 倍标准差作为阈值来定义离群点,将偏离均值超过该阈值的点去除。对于非正态分布的数据,则需采用更严格的方法,如成本函数。

示例 4.2.1

以下是生成数据、添加离群点、识别并打印离群点及其索引的代码:

% 生成数据集
randn('seed',0);
m=1; var=0.16;
stdevi=sqrt(var);
norm_dat=m+stdevi*randn(1,100);

% 生成离群点
outl=[6.2 -6.4 4.2 15.0 6.8];

% 在数据末尾添加离群点
dat=[norm_dat
本资源为黑龙江省 2023 年水系分布数据,涵盖河流、沟渠、支流等线状要素,以及湖泊、水库、湿地等面状水体,提供完整的二维水文地理框架。数据以标准 GIS 格式发布,包含可编辑 MXD 工程文件、Shapefile 数据以及标准制图 TIF,适用于科研、规划设计、生态评估与地图制图等多类应用场景。 【数据内容】 1、水系线状要素(.shp) 包括主要河流、支流、人工渠道等 属性字段涵盖:名称、类别等 线要素拓扑规范,无断裂与悬挂节点 2、水体面状要素(.shp) 覆盖湖泊、水库、池塘、湿地等面状水体 属性包含:名称、类型等信息 几何边界经过平滑与精修,保证面积统计可靠 3、可编辑 MXD 工程文件(.mxd) 预设图层渲染、图例、比例尺、指北针与布局 支持用户根据自身制图需求快速调整样式、色带及标注规则 博主使用的 ArcMap 10.8 环境 4、标准成图 TIF(.tif) 专业级地图输出,含必要图廓与标注,可直接用于报告、论文与展示 输出分辨率高,适合印刷与电子稿应用 【数据技术说明】 坐标系统:WGS 84 地理坐标系 数据年份:2023 年 制作流程:基于卫星影像、水利普查数据和地理编码信息进行提取 → 几何校正 → 拓扑审查 → 分类整理 → 成图渲染 质量控制措施:保证线状与面状水体不重叠、不缺失;对水库与湖泊边界进行了人工校核,提高空间精度 【应用价值】 地表水资源调查与监测,水利、水文模型的空间输入,城市与农村规划中的水系布局分析,生态修复、水环境治理与湿地保护研究,教学、制图与地理信息可视化应用 【使用说明】 首次打开 MXD 文件前,请确保 Shapefile 和栅格文件均已解压至同一目录,以免出现路径丢失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值