感知机
- 感知机是一种线性分类器,属于判别模式。
- 感知机的前提是数据线性可分。
- 感知机通过梯度下降算法最小化损失函数,即:
minw,bL(w,b)=−∑xi∈M(yi(w∙x+b))
损失函数对应于误分类点到分离超平面的总距离。 - 感知机经过有限次迭代一定收敛。
感知机是根据输入实例的特征向量x对其进行二分类的线性分类模型:
f(x)=sign(w∙x+b)
感知机模型对应输入空间的分割超平面:w∙x+b=0感知机学习算法基于随机梯度下降法对损失函数的最优化方法,有原始形式和对偶形式。
- 当训练数据线性可分时,感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数k满足不等式:
k≤(Rγ)2
K邻近法
- k邻接法是基本且简单的分类和回归方法。主要有两种方式实现:计算所有数据点到给定点距离并选取其中k个最近点中概率最大的点所在类作为给定点的类别 以及 使用kd树实现。
- 直接计算对于大量数据而言效率较低,而基于kd树的K邻接法算法复杂度虽然更高,但是计算复杂度是 O(logN) (在维度远远大于数据实例数时成立)
- kd树:是一种便于对k维空间中的数据进行快速检索的数据结构,kd树是二叉树,表示k维空间的一种划分。利用kd数可以省去对大部分数据点的搜索,从而减少搜索的计算量。
朴素贝叶斯法
- 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。(朴素贝叶斯法与贝叶斯估计是不同的概率)
- 朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。
- 条件假设用于分类的特征在类确定的条件下都是相互独立的,这一假设使朴素贝叶斯变得简单,但有时会牺牲一定分类的准确率。