第一部分 支持向量机
1.使用SVM对线性可分样本进行分类
样本点:
这一部分让我们使用不同的参数C观察分类效果。C就是SVM中对误分类样本的惩罚程度(正值)。C越大对训练样本的分类就会越准确,但是泛化能力也会变差。
C=1时:
C=100时:
可以看到C=100时虽然没有了误分类样本,但这个决策边界却过拟合了,当样本点轻微波动时,可能就会分类错误。而C=1时虽然有一个误分类的样本,却能满足样本点波动的条件,也就是样本点到决策边界的间距较大。
2.高斯核函数SVM
2.1 非线性分类
这一部分使用SVM进行非线性的分类
高斯核函数公式:
该函数的功能基本可以看作是测量两个样本点间的距离。参数σ表示宽度,这决定了随着示例之间的距离越来越远,相似性度量降低(到0)的速度有多快。
sim = exp(- sum((x1 - x2) .^ 2) / (2 * sigma^ 2)</