K近邻算法
K-近邻定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别;
距离计算公式:欧式距离、曼哈顿距离等;
sklearn k-近邻算法API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’),其中n_neighbors是指查询使用的邻居数;algorithm:默认值auto,尝试根据传递给fit方法的值来决定最合适的算法;
在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别;
距离计算公式:欧式距离、曼哈顿距离等;
sklearn k-近邻算法API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’),其中n_neighbors是指查询使用的邻居数;algorithm:默认值auto,尝试根据传递给fit方法的值来决定最合适的算法;
k-近邻算法优缺点:优点包括简单,易于理解,易于实现,无需估计参数,无需训练;缺点是懒惰算法,对测试样本分类时的计算量大,内存开销大以及K值必须选择;
应用场景:小数据场景,几千~几万样本;
朴素贝叶斯算法
朴素贝叶斯算法定义:是基于贝叶斯定理与特征条件独立假设的分类算法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此