文章目录
一. 监督、无监督、半监督学习
1. 监督学习
监督学习分为回归问题(=函数拟合)和分类问题
分类模型有:决策树、逻辑回归、支持向量机
回归问题:等价于函数拟合,即选择一个函数可以很好地拟合已知数据且能正确预测未知数据。回归正是用于捕捉输入到输出之间的函数映射关系。
2. 无监督学习
无监督学习中,训练数据不包含标签,算法需要找出数据中的结构和模式。
聚类是无监督学习中的一种算法:
聚类是将数据集中的样本根据相似性分组,使得同一组内相似度高、不同组样本相似度低。常见聚类算法:k-means、层次聚类、DBSCAN。
2.1. k-means算法:处理球形簇
目标:将数据集中的n个样本划分为k个簇,使得簇内的样本尽可能相似,而簇间的样本尽可能不同。
k-means算法的基本步骤:
算法优缺点:
优点:简单、高效、且容易实现
局限性:
- 对初始簇中心的选择敏感,可能造成局部最优解。
- 需要事先指定簇的数量k,这在实际应用中可能并不容易确定;
- 对于非球形的簇或者大小差异较大的簇,聚类效果可能不佳;
- 对噪声和异常点敏感。
为了解决这些问题,研究者们提出了一些改进的算法,如K-means++用于更好的初始簇中心选择,以及使用不同的距离度量和聚类评估指标来提高聚类的质量。
2.2. 谱聚类:处理非球形簇和高维数据
谱聚类(Spectral Clustering)是一种基于图论的聚类算法,它将数据集中的每个样本视为图中的一个顶点,样本间的相似度则转化为连接这些顶点的边的权重。
谱聚类的核心思想是通过图的切割方法,将图分割成若干个子图,使得每个子图内部的边权重和尽可能大,而子图之间的边权重和尽可能小,从而实现聚类的目的。
谱聚类的基本步骤包括:
步骤 | 描述 | |
---|---|---|
1.构建相似度矩阵 | 首先,需要构建一个相似度矩阵来表示数据点之间的相似程度。这个矩阵可以是基于K近邻、高斯核函数或其他方法生成的。 | |
2.计算拉普拉斯矩阵 | 拉普拉斯矩阵是度矩阵D与相似度矩阵W的差,即L = D -W。拉普拉斯矩阵具有半正定性,其特征值和特征向量在谱聚类中扮演重要角色。 | |
3.特征值分解 | 对拉普拉斯矩阵进行特征值分解,提取最小的几个非零特征值对应的特征向量,这些特征向量构成了数据在低维空间的表示。 | |
4.降维 | 使用特征向量对数据进行降维,将数据映射到低维空间中。 | |
5.聚类 | 在低维空间中,使用传统的聚类算法(如K-means)对数据进行聚类。 |
优缺点
优势:在于它能够处理非球形簇和高维数据,对于复杂形状的数据集,谱聚类通常能提供更好的聚类效果。
缺点:计算拉普拉斯矩阵的特征值和特征向量的复杂度较高,且对参数敏感,这些是谱聚类需要克服的难题。
算法应用
谱聚类:用于图像分割、社交网络分析、生物信息学等领域。
例如:在社交网络中,谱聚类可以用来发现社区结构,即识别出网络中紧密连接的用户群体。
二. 损失函数
1. 四种损失函数
损失函数:表示预测与真实答案的距离。(交叉熵是一个比较好的损失函数)
以下是常见的用于回归和分类的损失函数:
1.1. 用于回归的损失函数
- 平方损失函数(均方误差,MSE)
- 公式: L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y,f(x))=(Y - f(x))^{2} L(Y,f(x))=(Y−f(x))