27、分类器:k-近邻与决策树算法解析

分类器:k-近邻与决策树算法解析

1. 分类器的两种主要方法

在深入探讨具体的分类算法之前,我们先将分类器的世界划分为两种主要的方法:参数化方法和非参数化方法。

1.1 参数化方法

参数化方法通常假定算法从对所处理数据的先入为主的描述开始,然后寻找该描述的最佳参数以拟合数据。例如,如果我们认为数据遵循正态分布,就可以寻找最适合的均值和标准差。

1.2 非参数化方法

非参数化方法则让数据引领方向,在分析数据之后才尝试找到表示数据的方法。比如,我们可以查看所有数据,尝试找到将其划分为两个或更多类别的边界。

实际上,这两种方法更多是概念性的,而非严格区分。例如,选择特定的学习算法就意味着对数据做出了假设;同时,处理数据的过程也是在了解数据本身。不过,这些概括有助于我们组织后续的讨论。接下来,我们先看看两种非参数化分类器。

2. k-近邻算法(kNN)

2.1 算法基础

k-近邻算法(kNN)是一种非参数化算法。这里的“k”是一个整数,且取值为 1 或更大,由于在算法运行前就设定该值,所以它是一个超参数。需要注意的是,虽然 kNN 与 k-means 聚类算法名字相似,但它们是不同的技术。k-means 聚类处理无标签数据,属于无监督学习;而 kNN 处理有标签数据,属于监督学习。

2.2 训练过程

kNN 的训练速度很快,因为它只需将每个传入的样本保存到数据库中。当训练完成,新样本到来需要分类时,才是有趣的部分。kNN 对新样本进行分类的核心思想具有几何上的吸引力。

2.3 分类原理 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值