加权t分布随机邻域嵌入(Weighted t-SNE):用于投影聚类的降维新方法
在处理大规模复杂数据时,传统的降维技术往往难以捕捉数据中的非线性模式,对于像生物数据这种包含数万个细胞的数据集,它们的适用性有限。为了解决这一问题,众多非线性流形学习技术应运而生。
1. 非线性流形学习技术概述
常见的非线性流形学习技术包括拉普拉斯特征映射(LE)、局部线性嵌入(LLE)、Sammon映射、ISOMAP、多维尺度分析(MDS)、最大方差展开(MVU)、t分布随机邻域嵌入(t-SNE)以及均匀流形近似与投影(UMAP)等。这些技术通常会先确定样本的邻域,计算样本间的成对距离,然后通过各种优化方法和合适定义矩阵的特征向量,实现高维空间到低维嵌入的非线性变换。
非线性降维方法大致可分为两类:一类旨在保留数据的全局结构,如ISOMAP、MDS、MVU和主成分分析(PCA);另一类则注重保留数据的局部结构,如LE、Sammon映射和t-SNE。然而,虽然考虑邻域距离来保留局部结构的非线性方法在识别数据中的局部聚类方面表现出色,但它们往往难以维持全局的聚类间结构,而这种结构对于理解许多生物系统至关重要。
2. 传统t-SNE算法
设 ${x_1, \ldots, x_n}$ 为一组需要在低维空间中表示的 $n$ 个高维数据点。t-SNE算法首先计算数据点 $x_i$ 和 $x_j$($i \neq j$)之间的相似度比例概率 $p_{ij}$,计算公式如下:
[
p_{j|i} = \frac{\exp (-|x_i - x_j|^2/2\sigma_i^2)}{\sum_{k\neq i} \exp (-|x_i - x_k|^2
超级会员免费看
订阅专栏 解锁全文
:用于投影聚类的降维新方法&spm=1001.2101.3001.5002&articleId=152632111&d=1&t=3&u=a91222ee1eb04ac6a648f019ceb63801)
27

被折叠的 条评论
为什么被折叠?



