经典机器学习分类算法介绍
1. 多质心分类法
在分类任务中,可以为一个类别使用多个质心。当特征空间较小时,我们可以通过绘图直观地看到类别被划分为不同的组。然而,若特征空间较大,就很难判断类别是否被划分为多个组,以及是否需要多个质心。不过,对于一些简单问题,这种方法可能是理想的选择。并非所有应用都要处理复杂的数据,比如我们构建一个自动化系统,需要对新输入做出简单决策时,这种简单的分类器可能就非常合适。
2. k - 近邻算法(k - Nearest Neighbors)
2.1 算法原理
质心方法存在一个问题,即类别在特征空间中可能被划分为多个组,随着组数量的增加,确定类别所需的质心数量也会增加。因此,我们可以采用另一种方法:不计算每个类别的质心,而是直接使用训练数据,通过找到训练集中与新输入样本最接近的成员,并使用其标签来为新样本分配类别标签。
这种类型的分类器称为最近邻分类器。如果只考虑训练集中最接近的样本,即使用一个邻居,那么这个分类器就是 1 - 最近邻(1 - NN)分类器。但我们也可以考虑多个邻居,然后通过投票来为新样本分配最常见的类别标签。若出现平局,可以随机选择一个类别标签。如果使用三个最近邻,就是 3 - NN 分类器;使用 k 个邻居,就是 k - NN 分类器。
2.2 示例
假设有一个包含两个特征和四个类别,每个类别有 10 个示例的数据集,且将 k 设置为 3(一个典型值)。为新样本分配标签时,先将样本绘制在特征空间中,然后找到距离它最近的三个训练数据点。
例如,对于样本 A,距离它最近的三个训练数据点分别是方形、方形和星形,通过多数投票,将样本
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



