台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction

本文介绍台大李宏毅教授2017年秋季课程中关于无监督学习的内容,主要包括聚类算法如K-means及层次聚类,以及降维方法如特征选择、主成分分析(PCA)等。特别地,文章详细阐述了PCA的原理、应用及其优缺点。

台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction

本博客整理自:
http://blog.youkuaiyun.com/xzy_thu/article/details/70158829
Unsupervised Learning有两种:
1)化繁为简(Clustering & Dimension: 复杂的input→简单的output, training时只有一堆input, 不知output);
2)无中生有(Generation: input random number, 经过function,得到image)。

Clustering(聚类)

K-means

算法步骤如下图所示:
这里写图片描述

Hierarchical Agglomerative Clustering(HAC)

这里写图片描述
聚类要把目标聚到某一类里边,而实际中可能目标70%属于一类,30%属于另一类,分布式的表示也可称为降维。

Dimension Reduction(降维)

Feature selection

如果data point的某一维都不变,就没有存在意义,可以去掉。此方法适用场合有限。

Principle Component Analysis(PCA)

希望新的特征的variance尽量大,所以 k w选择的是 Cov(x) 的前 k 个最大的特征值对应的特征向量。
具体数学推导过程如下所示:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
新特征的各维度之间无相关性,作为input data,可用较简单的model处理,避免overfitting。
用SVD方法得到PCA的解:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
从NN角度理解PCA:自动编码器
这里写图片描述
train这个NN的参数,让output与input越接近越好。
不能用gradient descent求解,因为不能保证wi, wj 正交。
此解法效果也不会比SVD方法更好。
PCA的缺点:
1、PCA是无监督的,不知道数据的标签,这样在降维映射之后可能会把两类数据混到一起。
考虑数据标签的方法LDA(Linear Discriminant Analysis)可以避免这一问题。
2、PCA是线性的。把一个三维空间中的S形分布的数据做PCA之后的效果,就是把S形拍扁,而非展开。
这里写图片描述

对宝可梦做PCA
每个宝可梦是六维向量,计算出6个特征值,计算6个特征值的ratio,舍去较小的(只取前四个特征值的特征向量作为新的特征,或者叫主成分PC)。特征值的意义是,PCA降维时,在相应维度的variance有多大。
每个PC都是一个六维向量,分析它们在哪个维度是大的正值/负值,可以分析出这个PC所代表的意义。

对人脸做PCA
对人脸,取前30个PC,每个PC拼成image,发现都是脸,而不是脸的一部分。
解释:
这里写图片描述
对数字和人脸做NMF
得到的都是“部分”:
这里写图片描述
这里写图片描述

Matrix Factorization

人买公仔,人和公仔背后都有共同的隐藏属性影响人买多少公仔,例如人的属性:萌傲娇/萌天然呆,公仔的属性:傲娇/天然呆。
我们要从购买记录(矩阵)中推断出latent factor,latent factor的数目需要事先定好。
这里写图片描述
对矩阵做SVD,SVD的中间矩阵可以并到左边矩阵或右边矩阵。
有missing data怎么办?用gradient descent做,先定义loss function L(只考虑有定义的数据)。
这里写图片描述
这里写图片描述
这里写图片描述
得到 rA,rB,rC,rD,rE,r1,r2,r3,r4 之后,并不知道每个维度代表什么属性,需要事后分析。
已知姐寺与小唯属于天然呆类型、春日与炮姐属于傲娇类型,所以第一个维度代表天然呆,第二个维度代表傲娇。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值