生物统计学(biostatistics)笔记-9.降维-优快云博客

线性降维

•主成分分析降低数据维数而不丢失太多信息。
•用于机器学习、信号处理和图像压缩(以及其他)。
PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。

主要用于可视化，现多使用UMAP
- UMAP（Uniform Manifold Approximation and Projection）基于概率流线的方法，同时保留局部和全局结构，结果更稳定，计算快。
  - 核心：使用图（加权二进制图）表示高维低维之间的相关关系，保证点和邻居间的相对关系保持不变
  - 参数：perplexcity困惑度，考虑的邻居数
tSNE思想：高维的点间的距离关系在低维仍然保持
通过放射变换将数据点映射到概率分布上。在保证分布的基础上使得距离越远越好。
两个步骤
- SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似。
- SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。
Loss(Highdim, Lowdim)降维后的距离损失最小化（在两个概率分布之间使用Kullback-Leibler divergence散度衡量）
参数：perplexcity(困惑度，什么时候对于方程满意)，可视化结果对于该参数非常敏感
不足，除了可视化很难其他应用，降维没有唯一解（无法重复），倾向于局部特征，计算慢。