【人工智能基础03】机器学习基础

一. 监督、无监督、半监督学习

1. 监督学习

监督学习分为回归问题(=函数拟合)和分类问题

  • 分类模型有:决策树、逻辑回归、支持向量机

  • 回归问题:等价于函数拟合,即选择一个函数可以很好地拟合已知数据且能正确预测未知数据。回归正是用于捕捉输入到输出之间的函数映射关系

 

2. 无监督学习

无监督学习中,训练数据不包含标签,算法需要找出数据中的结构和模式。

聚类是无监督学习中的一种算法:

聚类是将数据集中的样本根据相似性分组,使得同一组内相似度高、不同组样本相似度低。常见聚类算法:k-means、层次聚类、DBSCAN。

 

2.1. k-means算法:处理球形簇

目标:将数据集中的n个样本划分为k个簇,使得簇内的样本尽可能相似,而簇间的样本尽可能不同。

k-means算法的基本步骤:

在这里插入图片描述

算法优缺点:

优点:简单、高效、且容易实现
局限性:

  1. 对初始簇中心的选择敏感,可能造成局部最优解。
  2. 需要事先指定簇的数量k,这在实际应用中可能并不容易确定;
  3. 对于非球形的簇或者大小差异较大的簇,聚类效果可能不佳;
  4. 对噪声和异常点敏感。

为了解决这些问题,研究者们提出了一些改进的算法,如K-means++用于更好的初始簇中心选择,以及使用不同的距离度量和聚类评估指标来提高聚类的质量。

 

2.2. 谱聚类:处理非球形簇和高维数据

谱聚类(Spectral Clustering)是一种基于图论的聚类算法,它将数据集中的每个样本视为图中的一个顶点,样本间的相似度则转化为连接这些顶点的边的权重

谱聚类的核心思想是通过图的切割方法,将图分割成若干个子图,使得每个子图内部的边权重和尽可能大,而子图之间的边权重和尽可能小,从而实现聚类的目的。

在这里插入图片描述

 

谱聚类的基本步骤包括:

步骤 描述
1.构建相似度矩阵 首先,需要构建一个相似度矩阵来表示数据点之间的相似程度。这个矩阵可以是基于K近邻、高斯核函数或其他方法生成的。
2.计算拉普拉斯矩阵 拉普拉斯矩阵是度矩阵D与相似度矩阵W的差,即L = D -W。拉普拉斯矩阵具有半正定性,其特征值和特征向量在谱聚类中扮演重要角色。
3.特征值分解 对拉普拉斯矩阵进行特征值分解,提取最小的几个非零特征值对应的特征向量,这些特征向量构成了数据在低维空间的表示
4.降维 使用特征向量对数据进行降维,将数据映射到低维空间中。
5.聚类 在低维空间中,使用传统的聚类算法(如K-means)对数据进行聚类。

优缺点

优势:在于它能够处理非球形簇和高维数据,对于复杂形状的数据集,谱聚类通常能提供更好的聚类效果。
缺点:计算拉普拉斯矩阵的特征值和特征向量的复杂度较高,且对参数敏感,这些是谱聚类需要克服的难题。

算法应用

谱聚类:用于图像分割、社交网络分析、生物信息学等领域。
例如:在社交网络中,谱聚类可以用来发现社区结构,即识别出网络中紧密连接的用户群体。

 

二. 损失函数

1. 四种损失函数

损失函数:表示预测与真实答案的距离。(交叉熵是一个比较好的损失函数)

以下是常见的用于回归和分类的损失函数:

1.1. 用于回归的损失函数

  1. 平方损失函数(均方误差,MSE)
    • 公式 L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y,f(x))=(Y - f(x))^{2} L(Y,f(x))=(Yf(x))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值