数据降维算法分为线性降维算法以及非线性降维算法两类。
数据集中 X X X中任意数据xi ∈ \in ∈Rd,线性降维有两种方式可以获得 X X X的低维表示。
1、寻找投影矩阵V=[v1,…,vk]
∈
\in
∈Rd*k:
yi=VTxi,yi
∈
\in
∈Rk。
2、寻找一组基v1,…,vk:
xi
≈
\approx
≈
∑
\sum
∑yi,jvj。yi=[yi,1,…,yi,k]
∈
\in
∈Rk,yi即可看作xi的低维表示。
数据降维中最核心的问题在于发现高维观测值中所隐含的有意义的潜在结构。无论线性或非线性降维,其本质都是解决该问题。