分类器:k-近邻与决策树算法解析
1. 分类器的两种主要方法
在深入探讨具体的分类算法之前,我们先将分类器的世界划分为两种主要的方法:参数化方法和非参数化方法。
1.1 参数化方法
参数化方法通常假定算法从对所处理数据的先入为主的描述开始,然后寻找该描述的最佳参数以拟合数据。例如,如果我们认为数据遵循正态分布,就可以寻找最适合的均值和标准差。
1.2 非参数化方法
非参数化方法则让数据引领方向,在分析数据之后才尝试找到表示数据的方法。比如,我们可以查看所有数据,尝试找到将其划分为两个或更多类别的边界。
实际上,这两种方法更多是概念性的,而非严格区分。例如,选择特定的学习算法就意味着对数据做出了假设;同时,处理数据的过程也是在了解数据本身。不过,这些概括有助于我们组织后续的讨论。接下来,我们先看看两种非参数化分类器。
2. k-近邻算法(kNN)
2.1 算法基础
k-近邻算法(kNN)是一种非参数化算法。这里的“k”是一个整数,且取值为 1 或更大,由于在算法运行前就设定该值,所以它是一个超参数。需要注意的是,虽然 kNN 与 k-means 聚类算法名字相似,但它们是不同的技术。k-means 聚类处理无标签数据,属于无监督学习;而 kNN 处理有标签数据,属于监督学习。
2.2 训练过程
kNN 的训练速度很快,因为它只需将每个传入的样本保存到数据库中。当训练完成,新样本到来需要分类时,才是有趣的部分。kNN 对新样本进行分类的核心思想具有几何上的吸引力。
超级会员免费看
订阅专栏 解锁全文
1324

被折叠的 条评论
为什么被折叠?



