分类器类型及常见非参数分类算法解析
1. 分类器的两种主要方法
在深入探讨具体的分类算法之前,我们先将分类器的世界划分为两种主要方法:参数方法和非参数方法。
1.1 参数方法
参数方法通常假定算法在处理数据时,预先对数据有一个既定的描述,然后寻找该描述的最佳参数以拟合数据。例如,如果我们认为数据服从正态分布,就可以寻找最适合的均值和标准差。
1.2 非参数方法
非参数方法则让数据引领方向,在分析数据之后再尝试找到一种表示数据的方法。比如,我们可以查看所有数据,尝试找到一个边界,将数据划分为两个或更多类别。
实际上,这两种方法更多是概念性的,而非严格区分。因为选择特定的学习算法就意味着对数据做出了假设,而且在处理数据的过程中,我们也在不断了解数据本身。不过,这些概括对我们组织讨论很有帮助。接下来,我们将介绍两种非参数分类器。
2. k - 近邻算法(k - Nearest Neighbors,kNN)
2.1 算法概述
kNN 是一种非参数算法,其中的“k”代表一个数字,我们可以选择任何大于或等于 1 的整数。由于这个值是在算法运行前设定的,所以它是一个超参数。需要注意的是,虽然 kNN 和 k - 均值聚类算法名字相似,但它们是不同的技术。k - 均值聚类处理的是无标签数据,属于无监督学习;而 kNN 处理的是有标签数据,属于监督学习。
2.2 训练过程
kNN 的训练速度很快,因为它只是将每个输入样本的副本保存到数据库中。训练完成后,当有新样本需要分类时,有趣的事情就发生了。kNN 对新样本进行分类的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



