判别式降维映射:原理、评估与应用
1. 引言
在当今数字化时代,电子数据量正以前所未有的速度增长。面对海量的数据,人们迫切需要自动化工具来直观地筛选出有价值的信息。降维数据可视化技术应运而生,它能够将高维数据以二维或三维的形式展示在计算机屏幕上,成为了一种流行的数据探索手段。
然而,降维问题本身具有内在的不适定性,不同的降维技术、参数设置,甚至非确定性算法中的随机因素,都会导致降维结果大相径庭。而且,很多时候我们并不清楚所得到的可视化结果是否可靠、是否适用于当前的任务,因为降维工具可能会聚焦于数据中的无关方面或噪声。此外,降维技术背后的数学目标往往不够直观,对于非专业人士来说难以理解。
判别式降维为解决这些问题提供了一种思路。它通过引入辅助信息,即对数据进行明确的标注,旨在可视化那些与给定类别信息特别相关的数据特征。这样一来,降维方法所忽略的信息不再是随机的,而是与给定类别的相关性直接关联。由于辅助标签或类别通常是人类可以直接理解的,这为用户提供了一个自然的接口,能够根据具体应用的需求来调整降维的重点。
目前,已经存在多种线性监督投影方法,如Fisher线性判别分析(LDA)、偏最小二乘回归(PLS)、信息投影等。现代技术则将这些方法扩展到了非线性投影。例如,核化方法(如核LDA)、监督多维尺度分析(SMDS)等。SMDS同时优化两个项,一个是经典的MDS成本函数,另一个则依赖于标签之间的距离,通过修改局部结构来确保类别分离。还有一些方法是对随机邻域嵌入(SNE)的扩展,如参数嵌入(PE)和多重关系嵌入(MRE)等。
不过,这些方法大多存在一些局限性。很多技术是临时的,依赖于关键参数(如使用的核),而且只有少数方法能够提供明确的降维映射。
超级会员免费看
订阅专栏 解锁全文
850

被折叠的 条评论
为什么被折叠?



