KNN+Nbayes+决策树
一、K近邻分类器(KNN)
KNN:通过计算待分类数据点,与已有数据集中的所有数据点的距离。取距离最小的前K个点,根据“少数服从多数”的原则,将这个数据点划分为出现次数最多的那个类别。
sklearn.neighbors.KNeighborsClassifier
主要参数:
- n_neighbors:用于指定分类器中K的大小
- weights:设置选中的K个点对分类结果影响的权重(默认值为平均权重“uniform”,可以选择“distance”代表越近的点权重越高,或者传入自己编写的以距离为参数的权重计算函数)
- algorithm:设置用于计算临近点的方法,因为当数量很大的情况下计算当前点和所有点的距离再选出最近的k各点,这个计算量是很费时的,所以选项中有ball_tree、kd_tree、brute,分别代表不同的寻找邻居的优化计算,默认值为auto,根据训练数据自动选择。
二、决策树
决策树是一种树形结构的分类器,通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标,构建一颗决策树,在分类时,只需要按照决策树中的结点依次进行判断,即可得到样本所属类别。