机器学习分类器与数据预处理全解析
1. 随机森林与K近邻算法
随机森林是一种强大的集成学习方法。通过执行特定代码,我们可以看到随机森林中树的集合所形成的决策区域。在训练随机森林时,我们可以通过 n_estimators 参数指定决策树的数量,例如使用25棵决策树,并使用基尼不纯度作为节点分裂的标准。为了演示目的,还可以使用 n_jobs 参数,利用计算机的多核(如两个核心)并行化模型训练。
K近邻(KNN)分类器是一种特殊的监督学习算法,属于懒惰学习算法。它与之前讨论的学习算法有着本质的不同,它不会从训练数据中学习判别函数,而是直接记忆训练数据集。
KNN算法的步骤如下:
1. 选择k值和距离度量。
2. 找到待分类数据记录的k个最近邻。
3. 通过多数表决分配类别标签。
下面的代码展示了如何使用欧几里得距离度量在scikit-learn中实现KNN模型:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5, p=2,
metric='minkowski')
knn.fit(X_train_std, y_train)
plot_decision_regions(X_combined_std, y_combined,
classifier=knn, test_idx=ra
超级会员免费看
订阅专栏 解锁全文
1782

被折叠的 条评论
为什么被折叠?



