机器学习分类器与数据预处理全解析
1. 随机森林与决策区域
执行特定代码后,我们能看到随机森林中树的集合所形成的决策区域。通过 n_estimators 参数,我们用 25 个决策树训练了一个随机森林,并使用基尼不纯度作为划分节点的标准。尽管是用一个非常小的训练数据集来构建这个小随机森林,但为了演示,我们使用了 n_jobs 参数,它能让我们利用计算机的多核(这里是两个核心)来并行化模型训练。
2. K - 近邻算法:一种懒惰学习算法
K - 近邻(KNN)分类器是一种独特的监督学习算法,与之前讨论的学习算法有本质区别,它是典型的懒惰学习者。之所以被称为“懒惰”,不是因为它看似简单,而是它并不从训练数据中学习判别函数,而是直接记忆训练数据集。
KNN 算法的步骤如下:
1. 选择 k 的值和距离度量方法。
2. 找到要分类的数据记录的 k 个最近邻。
3. 通过多数表决来分配类别标签。
3. 参数模型与非参数模型
机器学习算法可分为参数模型和非参数模型:
| 模型类型 | 特点 | 示例 |
| ---- | ---- | ---- |
| 参数模型 | 从训练数据集中估计参数以学习一个函数,能在不依赖原始训练数据集的情况下对新数据点进行分类 | 感知机、逻辑回归、线性 SVM |
| 非参数模型 | 不能用一组固定的参数来表征,参数数量随训练数据的增加而增长 | 决策树分类器/随机森林、核 SVM |
KNN 属于非参数模型中的基于实例学习的子类别。基于实例学习的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



