集成方法在数据处理与可视化中的应用
在数据处理和分析领域,如何有效地处理异常值以及优化数据可视化效果一直是重要的研究方向。本文将探讨集成方法在克服异常值影响以及拓扑保持映射组合方面的应用。
集成方法克服异常值影响
在使用主成分分析(PCA)处理数据时,异常值可能会对分析结果产生显著影响。为了研究这一问题,我们进行了一系列基于“BUPA”数据集和西班牙腌制火腿数据集的实验。
“BUPA”数据集分析
通过对“BUPA”数据集的分析,我们发现异常值会导致主成分方向的不稳定。如图4.6b所示,第一主成分的方向较为紧密,这是由于异常值分布在该特定方向上;而第二和第三主成分的方向则过于分散,甚至有些方向几乎相互垂直。这表明异常值给整个数据集带来了不稳定性。
火腿数据集实验
我们使用包含176个样本、每个样本有18个不同变量的火腿数据集进行了四个实验。
- 实验1:无异常值的单一PCA分析
- 对原始数据进行单一PCA分析,并将数据投影到分析得到的轴上。结果显示,高质量火腿样本(JC7C、JCCS和部分JCTE)位于图像右侧,变质部分集中在图像中心,标准和低质量火腿位于图像左侧(JCNO、JCTC)。部分高质量火腿样本(JCCS和JCTE)因更易变质而与标准质量类型混合,这一现象可通过为每个点添加标识符来验证。
- 第一、二、三主成分捕获的信息百分比分别为86.58%、8.47%和4.66%,具体数据如下表所示:
| 主成分 | 捕获信息百分比 |
| ---- | ---- |
| 第一主成分 | 86.58% |
|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



