多元离群值检测与稳健性分析
在数据分析领域,多元离群值检测和稳健性分析是极为重要的环节,它们有助于我们更准确地理解数据、避免离群值对分析结果的不良影响。下面将详细介绍相关的方法和技术。
1. 多元离群值检测相关方法特性
在多元数据分析中,某些变换下得分具有不变性。例如,对于变换后的结果等于 (A \hat{\mu}_x + v) 和 (AP) 的情况,得分保持不变,即 (t_i(Ax_i + v) = P’(x_i - \hat{\mu}_x) = t_i(x_i)) 。不过,Maronna 和 Zamar(2002)提出的正交化 Gnanadesikan - Kettenring 估计器不满足这一特性。
此外,还有稳健的 LTS - 子空间估计器及其推广方法。这些方法的核心思想是最小化正交距离的稳健尺度,与回归中的 LTS 估计器和 S - 估计器类似。对于函数数据,Locantore 等人(1999)引入了一种快速主成分分析(PCA)方法。
2. 诊断图分析
2.1 离群值类型分类
PCA 分析结果可通过诊断图呈现。在 PCA 中,离群值是指不遵循多数数据模式的观测值。根据正交距离和得分距离,可将观测值分为以下四类:
- 常规观测值 :正交距离和得分距离都较小。
- 不良杠杆点 :正交距离和得分距离都较大,对经典 PCA 影响大,会使特征向量向其倾斜。
- 良好杠杆点 :得分距离大但正交距离小。
- 正交离群值 :正交距
超级会员免费看
订阅专栏 解锁全文
1268

被折叠的 条评论
为什么被折叠?



