第十章:降维与度量学习
10.1 降维的概念
核心概念:降维就是把很多复杂的数据特征,用一些方法变成更少、更简单的特征,同时还尽量保留数据里重要的信息。这就好比你有一大箱各种各样的玩具,但是要搬到一个小房间里,你就挑出最有代表性、最好玩的几个玩具带走,把其他不太重要的留在原地。这样既减少了东西的数量,又能保留玩玩具的主要乐趣。
例子:假设你要描述一个人的外貌,一开始你记录了身高、体重、头发颜色、眼睛颜色、鼻子形状、嘴巴大小、脸型等好多特征。但有时候,为了简单快速地描述,你可能只挑出身高、头发颜色、脸型这几个最有特点的特征,这就是一种简单的降维。因为这几个特征就能大概让人对这个人的外貌有个印象,同时减少了描述的复杂性。
10.2 主成分分析(PCA)
核心概念:PCA 是一种很常用的降维方法。它的主要思想是找到数据中变化最大的方向,把数据投影到这些方向上,从而达到降维的目的。可以想象你在玩飞镖游戏,飞镖扎在靶盘上的位置有很多变化,PCA 就是要找到飞镖分布最分散的方向,把这些方向作为新的 “坐标轴”,然后把飞镖的位置都投影到这些新坐标轴上,这样就能用更少的 “坐标” 来表示飞镖的位置,实现了降维。
例子:假设有一群同学的考试成绩数据,包含语文、数学、英语、物理、化学等多门学科成绩。这些成绩数据就像很多