无监督学习
与监督学习不同,在无监督学习中,学习算法只有输入数据,并且从数据中提取需要的知识。而其中有两种常用类型:数据集变换和聚类。
无监督变换是创建数据新的表示的算法,与数据的原始表示相比,新的表示可能更容易被人或其它机器学习算法所理解。而无监督变换的一个常见应用就是降维,它接受包含许多特征的数据的高维表示,并找到表示该数据的一种新的方法,用较少的特征就可以概括数据信息的重要特性。降维的一个常见应用是将数据降为二维之后进行可视化。
无监督变换的另一个应用是找到”构成“数据的各个部分。这方面的一个例子就是对文本文档集合进行主题提取。
而与之相反,聚类算法就是将数据划分成不同的组,每组包含相似的物项。譬如说人脸识别,可以将相同的某个人的照片分在一组。
实际上,无监督学习的一个主要挑战就是评估算法是否学习到了有用的东西。因为无监督学习一般用于不包含任何标签信息的数据,所以我们不知道正确的输出应该是什么。因此很难判断一个模型是否”表现良好“。通常来说,评估无监督算法结果的唯一方法就是人工检查。
主成分分析(PCA)
利用无监督学习进行数据变换可能有很多种目的。最常见的就是可视化,压缩数据(降维),以及寻找信息量更大的数据表示以用于进一步的处理。为了实现这些目的,最简单也是最常用的一种算法就是主成分分析(PCA)。
主成分分析(PCA)是一种旋转数据集的方法,旋转后的特征在统计上不相关。在做完这种旋转之后,通常是根据新特征对解释数据的重要性来选择它的一个子集。
模型就是数据集所表现出来的信息的集合体或者说构成体。通常,在机器学习的过程中,特征的个数过多会增加模型的复杂度。而我们所希望的理想状态就是用最少的特征表示数据集最多的信息。
在许多情形下,特征之间是有一定的相关关系的(如线性相关:一个特征可以用另一个特征线性表示)。而当两个特征之间有一定的相关关系时,可以理解为两个特征所反映的此数据集的信息有一定的重叠。(譬如特征x和特征y,其中y=a*x+b)。
而主成分分析就是对于原先数据集的所有特征进行处理。删去多余的重复的特征,建立尽可能少的特征,使得这些新特征两两不相关。并且这些新特征在反映数据集的信息方面尽可能保持原有信息。