本节课主要讲了两种线性降维的方法——cluster和PCA,并从两个角度解释了PCA。最后讲了一些关于矩阵分解的知识。
1.cluster
cluster就简单的带过了,主要是k-means和HAC
k-means原理:
(1)先初始化k个中心点ci (i=1,….,k)
(2)如果样本x离ci更近,就划分到第i类
(3)更新每个类别的中心点
(4)重复(2)(3)
如何选择K是个问题~
HAC(Hierarchical Agglomerative Clustering )原理
类似于建立一棵树,每个节点都设置一个阈值
2.PCA(Principle Component Analysis)
PCA降维原理可以从两个来考虑
一是基于最大方差原理,样本点在这个超平面上的投影尽可能分开。
二是基于最小化误差原理,样本点到这个超平面距离都足够近。
2.1基于最大方差原理
(1)需要找到一个投影矩阵W,使得x在W上的投影方差尽可能的大,其中W是由很多个向量组成(w1,w2,w3,…),希望x在w1上投影的方差最大,w2上投影的方差其次……以此类推
(2)并且,W是一个单位正交矩阵,即(w1,w2,w3,…)相互正交,且都是单位向量

这节课详细介绍了线性降维方法,包括cluster中的k-means和HAC,以及PCA的两种解释:最大方差原理和最小化误差原理。PCA与LDA、NMF进行了对比,并探讨了矩阵分解在推荐系统中的应用。
最低0.47元/天 解锁文章
806

被折叠的 条评论
为什么被折叠?



