在机器学习建模过程中,核函数的选择通常和应用场景有关,有专用核函数,但实际上,还是有一些通用核函数,本文重点介绍一些通用核函数,理解核函数,有助于在实战过程中选择合理的调参范围,指导我们对超参数的调整。
常用的核函数有两种,一种是多项式核函数,另外一种是高斯核函数。
1.多项式核函数
数学表达式为:
, 其中
为正数,
非负,相对于线性和函数可以表达更复杂,非直线的分隔超平面。多项式阶数n不宜太高,否则模型求解困难,尤其当
时,经过n次方运算后,数值变得非常大,核函数因此而不稳定。
而线性核函数,即,是多项式核函数在
的特例,优点是简洁,缺点是对线性不可分数据集没有解决办法。
2. 高斯核函数
,如果输入特征是一维标量,该函数的形状为钟形曲线,参数
控制曲线的宽度(胖瘦)。
此核函数对应的特征转换函数,这个无限多累加器的意义就是把特征向量映射到无限维空间,也就是说,高斯函数可以把输入特征向量扩展到无限维度的空间里。高斯核函数计算出来的值永远在0到1之间。
3. 实践中核函数的选取依据
针对样本数很大的情况,可以选择复杂一点的模型,大量的数据可以弥补过拟合问题,数据量小,应该选择简单模型,如果出现欠拟合,可以增加多项式特征。
黄永昌. scikit-learn机器学习常用算法原理及编程实战 机械工业出版社 2018.