基于预聚类技术优化子类判别分析
在统计模式识别领域,“维度灾难”一直是研究人员面临的重大挑战。为解决这一问题,众多降维方法应运而生,其中子类判别分析(SDA)在处理不同类型的类分布时表现出色,但存在计算成本高的问题。本文将详细介绍SDA及其优化方法,并通过实验验证优化效果。
1. 背景与问题提出
在模式识别中,主成分分析(PCA)和线性判别分析(LDA)是常用的降维方法。PCA旨在找到高效表示数据的成分,而LDA则侧重于寻找具有高效判别能力的特征。然而,这两种方法本质上都是线性算法,难以有效处理非线性数据。因此,研究者们提出了多种LDA的扩展方法,如两阶段LDA、直接LDA、基于核的LDA等,以及用于发现非线性流形结构的技术,如局部线性嵌入(LLE)和混合判别分析(MDA)。
近年来,Martinez等人提出了子类判别分析(SDA),该方法通过高斯混合模型近似每个类的潜在分布,将每个类的数据样本用一组子类表示,从而捕捉数据中的大部分方差。但SDA的主要问题是确定每个类所需的最优子类数量,为找到最佳划分,需要验证所有可能的解决方案,这导致计算成本极高。对于包含大量类别的数据集,SDA的应用受到限制。
2. 子类判别分析(SDA)
2.1 SDA算法步骤
为给定数据集 $X = {x_i} {i=1}^n \in \Re^d$ 获取子空间,SDA执行以下步骤:
1. 初始化:$R_H = 0, \forall H$。
2. 从 $i = 1$ 到 $n$ 迭代执行以下步骤:
- (a) 使用最近邻(NN)聚类生成训练集 $X_i$。
- (b) 用 $X_i$ 计算
超级会员免费看
订阅专栏 解锁全文
1495

被折叠的 条评论
为什么被折叠?



