流形学习与K-Means聚类算法详解
1. 流形学习与主成分分析对比
流形学习和主成分分析(PCA)是数据降维中常用的方法,但它们各有特点。
1.1 嵌入维度含义
在流形学习中,嵌入维度的含义并不总是清晰的。而在PCA中,主成分具有非常明确的含义。
1.2 计算复杂度
流形学习方法的计算开销通常为 $O[N^2]$ 或 $O[N^3]$。对于PCA,存在随机化方法,通常速度要快得多(不过可以参考megaman包来获取一些更具可扩展性的流形学习实现)。
1.3 优势对比
流形学习方法相对于PCA的唯一明显优势是它们能够保留数据中的非线性关系。因此,通常先使用PCA探索数据,然后再使用流形学习方法。
1.4 流形学习方法推荐
Scikit - Learn实现了除Isomap和LLE之外的几种常见流形学习变体。根据经验,以下是一些推荐:
| 数据类型 | 推荐方法 | 实现模块 |
| ---- | ---- | ---- |
| 玩具问题(如S曲线) | 局部线性嵌入(LLE)及其变体(特别是修改后的LLE) | sklearn.manifold.LocallyLinearEmbedding |
| 来自现实世界的高维数据 | 等距映射(Isomap) | sklearn.manifold.Isomap |
| 高度聚类的数据 | t分布随机邻域嵌入(t - SNE) | sklearn.manifold.TSNE
流形学习与K-Means聚类算法详解
超级会员免费看
订阅专栏 解锁全文
1252

被折叠的 条评论
为什么被折叠?



