这一章围绕机器学习中的另一个重要方法——无监督学习展开,分别从K均值聚类 、主成份分析 特征人脸方法(主成分分析的应用)三个方面来介绍。
一·K均值聚类
无监督学习与监督学习的区别在于数据没有语义标签,因此聚类结果无法确定数据的高层语义。k均值聚类的目标是将n个数据聚类到k个集合中,通过计算欧式距离来确定数据的相似度。聚类算法通过迭代操作,不断更新聚类中心,最终使得每个聚类集合中的数据呈现出较小的差异。k均值聚类可以应用于图像聚类和文本聚类等领域,实现数据的分割和分类。
对于上图中第一排图片,红色是它们的共同特征,相似度函数:颜色相似。
对于第二排图片,圆形是它们的共同特征,相似度函数:形状相似。
所以在无监督学习中数据特征和相似度函数都很重要。
K
均值聚类算法的不足
1.
需要事先确定聚类数目,很多时候我们并不知道数据应被聚类的数目
2.
需要初始化聚类质心,初始化聚类中心对聚类结果有较大的影响
3.
算法是迭代执行,时间开销非常大
4.
欧氏距离假设数据每个维度之间的重要性是一样的

二·主成分分析
主成分分析(PCA)是一种特征降维方法。降维后的结果要保持原始数据固有结构。在主成分分析中需要用到方差和协方差的相关概念,这里就不做具体介绍了,详情内容可以参考概率论相关书籍。
数据样本的方差:
数据样本的协方差:

对于一组两维变量(如广告投入
-
商品销售、天气状况
-旅游出行等),可通过计算它们之间的协方差值来判断这组数据给出的两维变量是否存在关联关系(线性意义下):
当协方差
𝑐𝑜𝑣(𝑋, 𝑌)> 0
时,称
𝑋
与
𝑌
正相关
当协方差𝑐𝑜𝑣(𝑋, 𝑌)< 0 时,称
𝑋
与
𝑌
负相关
当协方差𝑐𝑜𝑣(𝑋, 𝑌)= 0 时,称
𝑋
与𝑌 不相关
我们可通过皮尔逊相关系数(
Pearson Correlation coefficient
)将两组变量之间的关联度规整
到一定的取值范围内。皮尔逊相关系数定义如下:
皮尔逊相关系数所具有的性质如下:
1.|𝑐𝑜𝑟𝑟(𝑋, 𝑌)| ≤ 1
2.𝑐𝑜𝑟𝑟(𝑋, 𝑌)= 1的充要条件是存在常数𝑎
和
𝑏
,
使得
𝑌 = 𝑎𝑋 + 𝑏
3.皮尔逊相关系数是对称的,即𝑐𝑜𝑟𝑟(𝑋, 𝑌)= 𝑐𝑜𝑟𝑟(𝑌, 𝑋)
4.由此衍生出如下性质:皮尔逊相关系数刻画了变量
𝑋
和
𝑌
之间线性相关程度,如果|𝑐𝑜𝑟𝑟(𝑋, 𝑌)|
的取值越大,则两者在线性相关的意义下相关程度越大。𝑐𝑜𝑟𝑟(𝑋, 𝑌)= 0表示两者不存在线性
相关关系(可能存在其他非线性相关的关系)。
5.正线性相关意味着变量
𝑋
增加的情况下,变量
𝑌
也随之增加;负线性相关意味着变量
𝑋
减少的情
况下,变量
𝑌
随之增加。
相关性
(correlation)
与独立性
(independence)
如果
𝑿
和
𝒀
的线性不相关,则 𝑐𝑜𝑟𝑟(𝑋, 𝑌)= 0
如果
𝑿
和
𝒀
的彼此独立,则一定𝑐𝑜𝑟𝑟(𝑋, 𝑌) = 0,且
𝑿
和
𝒀
不存在任何线性或非线性关系
“不相关”是一个比“独立”要弱的概念,即独立一定不相关,但是不相关不一定相互独立(可能存在其他复杂的关联关系)。独立指两个变量彼此之间不相互影响。

对于左图,向y轴投影更好的原因是投影后数据点之间更分散,即相关性更弱。右图也类似。
主成分分析思想是将𝑛维特征数据映射到𝑙维空间( 𝑛 ≫ 𝑙),去除原始数据之间的冗余性(通过去除相关性手段达到这一目的)。
将原始数据向这些数据方差最大的方向进行投影。一旦发现了方差最大的投影方向, 则继续寻找保持方差第二的方向且进行投影。
将每个数据从𝑛
维高维空间映射到
𝑙
维低维空间,每个数据所得到最好的
𝑘
维特征就是使得每一维上样本方差都尽可能大。





三·特征人脸方法(Eigenface)
特征人脸方法是一种应用主成份分析来实现人脸图像降维的方法,其本质是用一种称为“特征人
脸
(eigenface)
”的特征向量按照线性组合形式来表达每一张原始人脸图像,进而实现人脸识别。
用(特征)人脸表示人脸,而非用像素点表示人脸。由此可见,这一方法的关键之处在于如何得到特征人脸。




