机器学习算法概述与农业应用
1. 机器学习算法分类
机器学习算法主要分为监督学习、无监督学习、强化学习。监督学习中,$P(y)$ 指类别概率,$P(xi|y)$ 指给定类别标签下依赖特征 $xi$ 的条件概率。下面着重介绍无监督学习和强化学习。
2. 无监督学习
在某些场景下,处理的数据集可能未被标记,标记每个输入实例既计算成本高又耗时。无监督学习就是针对未标记、未分类的数据,让机器在无监督的情况下处理数据,发现数据点之间的相似性并进行分组。
2.1 聚类算法
聚类算法将数据点划分为组,每组由相似的数据点组成,不同组的数据点相互不同。常用的距离度量方法有欧几里得距离、曼哈顿距离等。聚类算法可应用于营销、客户服务、农业等领域。常见的聚类算法如下表所示:
| 无监督学习算法 | 算法描述 |
| — | — |
| K - 均值聚类 | 通过计算每个点到 K 个质心的距离,将数据集划分为 K 个聚类 |
| 层次聚类 | 根据数据点之间的成对距离形成聚类层次结构 |
| DBSCAN | 将数据点分类为核心点、边界点或噪声点 |
| GMM | 每个聚类符合高斯分布 |
| PCA | 发现具有最大方差的主成分,并将其投影到低维空间 |
| SVD | 矩阵分解方法,将特征矩阵分解为三个矩阵 |
- K - 均值聚类
- 目标是形成 K 个不同的聚类,每个聚类与一个质心 $Ci$ 相关联。质心预先定义,根据数据点到质心的距离进行分组。
超级会员免费看
订阅专栏 解锁全文
719

被折叠的 条评论
为什么被折叠?



