感知机、K邻近法及朴素贝叶斯法总结

最新推荐文章于 2022-10-12 08:54:14 发布

原创最新推荐文章于 2022-10-12 08:54:14 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

3 篇文章

订阅专栏

本文介绍了感知机、K邻近法及朴素贝叶斯法三种基本分类算法。感知机是一种线性分类器，适用于数据线性可分的情况；K邻近法则是一种基于实例的学习方法，可通过计算距离来分类；朴素贝叶斯法基于特征条件独立假设，适用于文本分类等场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感知机是一种线性分类器，属于判别模式。
感知机的前提是数据线性可分。
感知机通过梯度下降算法最小化损失函数,即：
$min w, b L (w, b) = - \sum x i \in M (y i (w ∙ x + b))$ $\min\limits_{w,b}L(w,b) = - \sum\limits_{x{_i}\in M}(y{_i}(w\bullet x + b))$
损失函数对应于误分类点到分离超平面的总距离。
感知机经过有限次迭代一定收敛。
感知机是根据输入实例的特征向量x对其进行二分类的线性分类模型：

$f (x) = s i g n (w ∙ x + b)$ $f(x) = sign(w\bullet x + b)$
感知机模型对应输入空间的分割超平面： $w ∙ x + b = 0$ $w\bullet x+ b =0$
感知机学习算法基于随机梯度下降法对损失函数的最优化方法，有原始形式和对偶形式。
当训练数据线性可分时，感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数k满足不等式：
$k \leq (R γ) 2$ $k\leq (\frac{R}{\gamma})^2$

k邻接法是基本且简单的分类和回归方法。主要有两种方式实现：计算所有数据点到给定点距离并选取其中k个最近点中概率最大的点所在类作为给定点的类别以及使用kd树实现。
直接计算对于大量数据而言效率较低，而基于kd树的K邻接法算法复杂度虽然更高，但是计算复杂度是 O(logN) (在维度远远大于数据实例数时成立)
kd树：是一种便于对k维空间中的数据进行快速检索的数据结构，kd树是二叉树，表示k维空间的一种划分。利用kd数可以省去对大部分数据点的搜索，从而减少搜索的计算量。