在SVM中,我们优化的目标是最大化分类间隔,此处间隔是指两个分离的超平面(决策边界)间的距离。而最靠近超平面的训练样本叫做支持向量(support vector)
取倒数,最小化处理1/2||W||(二次规划)
控制对错误分类的惩罚程度,使用参数C来控制间隔的大小
以上就是线性SVM的基本概念
那么非线性问题怎么办呢?
“核技巧“
计算內积,我们通过一个映射函数降训练数据映射到更高维的特征空间,在实践中,构造新的特征空间,,将点积
核函数,为了降低两点之间计算內积精确计算阶段的成本消耗。
RBF 径向基函数核
减小gamma值,增加受训练样本的范围,导致决策边界更加宽松。
决策树吸引人的地方还在于其模型的可解释性。
基于训练数据集的特征,决策树模型通过一系列的问题来推断样本的类标。
基于可获得最大信息增益(IG)的特征来对数据进行划分。
代表支持向量所占样本的比例
SVM寻找一个最优超平面把正负样本分开,总之都涉及到不止一个类的样本,相当于告诉算法“这种东西长什么样,那种东西长什么样”。于是训练出一个模型能够区分这些东西。