【人工智能基础03】机器学习基础_人工智能基础损失函数计算-优快云博客

本文链接：https://blog.youkuaiyun.com/hiliang521/article/details/144038990

一. 监督、无监督、半监督学习

监督学习分为回归问题（=函数拟合）和分类问题

分类模型有：决策树、逻辑回归、支持向量机

回归问题：等价于函数拟合，即选择一个函数可以很好地拟合已知数据且能正确预测未知数据。回归正是用于捕捉输入到输出之间的函数映射关系。

无监督学习中，训练数据不包含标签，算法需要找出数据中的结构和模式。

聚类是无监督学习中的一种算法：

聚类是将数据集中的样本根据相似性分组，使得同一组内相似度高、不同组样本相似度低。常见聚类算法：k-means、层次聚类、DBSCAN。

目标：将数据集中的n个样本划分为k个簇，使得簇内的样本尽可能相似，而簇间的样本尽可能不同。

k-means算法的基本步骤：

算法优缺点：

优点：简单、高效、且容易实现
局限性：

对初始簇中心的选择敏感，可能造成局部最优解。

需要事先指定簇的数量k，这在实际应用中可能并不容易确定；

对于非球形的簇或者大小差异较大的簇，聚类效果可能不佳；

对噪声和异常点敏感。

为了解决这些问题，研究者们提出了一些改进的算法，如K-means＋＋用于更好的初始簇中心选择，以及使用不同的距离度量和聚类评估指标来提高聚类的质量。

谱聚类（Spectral Clustering）是一种基于图论的聚类算法，它将数据集中的每个样本视为图中的一个顶点，样本间的相似度则转化为连接这些顶点的边的权重。

谱聚类的核心思想是通过图的切割方法，将图分割成若干个子图，使得每个子图内部的边权重和尽可能大，而子图之间的边权重和尽可能小，从而实现聚类的目的。

在这里插入图片描述

谱聚类的基本步骤包括：

步骤	描述
1.构建相似度矩阵	首先，需要构建一个相似度矩阵来表示数据点之间的相似程度。这个矩阵可以是基于K近邻、高斯核函数或其他方法生成的。
2.计算拉普拉斯矩阵	拉普拉斯矩阵是度矩阵D与相似度矩阵W的差，即L = D -W。拉普拉斯矩阵具有半正定性，其特征值和特征向量在谱聚类中扮演重要角色。
3.特征值分解	对拉普拉斯矩阵进行特征值分解，提取最小的几个非零特征值对应的特征向量，这些特征向量构成了数据在低维空间的表示。
4.降维	使用特征向量对数据进行降维，将数据映射到低维空间中。
5.聚类	在低维空间中，使用传统的聚类算法（如K-means）对数据进行聚类。