clustering 聚类
k-means方法:
HAC方法(Hierarchical Agglomerative Clustering):
Distributed Representation
用于实现dimension reduction。输入为特征,输出为维数较小的数据。常用的方法为PCA,principle component analysis。
可以使用拉格朗日乘数法进行PCA的求解。
we want the variance of z1 as large as possible
需要寻找一个变换矩阵W,使得x向量通过运算,得到z向量,其中z向量的各分量为x向量在W行向量的投影。而输出的向量z需要保证其越分散越好,即需要保证z的方差最大。方差的概念是所有的输出减去输出平均向量的平方和。最终的问题转换为,寻找到一个 wi w i ,使得右下计算公式最大。
采用拉格朗日乘数法进行求解,最后权重矩阵W的各个向量均为S矩阵特征值对应的特征向量,从大到小排序。
PCA实例
对于较为复杂的输入特征,可以使用较为简单的components进行表示,如下所示:
进行变换后,可以得到下图,寻找合适的 u1,u2,...,uk u 1 , u 2 , . . . , u k ,使得误差函数L最小。这里可以使用SVD分解进行求解
进一步地,PCA可以表示成神经网络的形式。这里需要参考最前面PCA的方法,也就是z=Wx;而得到的c1 c2是压缩后的结果,需要保证 x−x^ x − x ^ 最小,auto-encoder。
对于unlabel data,可以使用PCA进行降维操作。(对于labeled data,可以使用LDA进行降维操作),从而得到输入数据的主要成分,eigen-digit, eigen-face。
由于PCA的权重值可以是负值,因此得到的主要成分不一定是简单的组成成分,这可以使用NMF进行计算,non-negative matrix factorization。
Matrix factorization
PCA参考
2018-01-31