机器学习的一些总结

最新推荐文章于 2022-07-24 11:35:49 发布

林立民爱洗澡

最新推荐文章于 2022-07-24 11:35:49 发布

阅读量1.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：数据挖掘算法文章标签：机器学习核函数 SVM

本文链接：https://blog.youkuaiyun.com/lin_limin/article/details/82947496

本文总结了机器学习中的关键概念，包括SVM中常用的线性、多项式和高斯核函数及其应用场景，L1和L2正则化的理解及其在防止过拟合中的作用，以及常见损失函数如平方损失、对数损失、指数损失、Hinge损失和感知损失的解释。此外，还探讨了朴素贝叶斯公式、EM算法的原理和SVM的推导，包括对偶性、KKT条件和软间隔SVM。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　以下是自己关于机器学习的一些知识点总结，主要渗透了自己对某些知识点的理解，涵盖的面较广，将会不定期地更新。若有理解不一致之处，望指明并相互交流。

1 SVM中常用的核函数有哪些？如何选择相应的核函数？

　　常用的核函数有线性核，多项式核以及高斯核。

1.1 线性核

$\kappa (x,z) = < x,z >$
　　线性核对应的映射函数为： $\phi (x) = x$ 。即映射空间与原始空间是相同的。它适用于原始数据集是线性可分的情况。此时所使用的是线性SVM。

1.2 多项式核

$\kappa (x,z) = {[a < x,z > + c]^b}$
　　多项式核将数据从原始空间映射到了高维空间。
　　考虑数据集在原始空间的分布情况：如果分隔的决策面非线性且较为规则的话（比如，决策面是椭圆，椭球，双曲线等），可以考虑使用多项式核。
　

1.3 高斯核

$\kappa (x,z) = \exp ( - \frac{ { { {\left\| {x - z} \right\|}^2}}}{ {2{\sigma ^2}}})$
　　高斯核将数据从原始空间映射到了无限维空间。关于高斯核与多项式核的关系，可以参见这篇文章：关于支持向量机(SVM)的高斯核和惩罚因子C的理解（简单易懂）。
　　当原始空间的决策面较不规则，难以使用多项式核进行分类的时候，可以考虑高斯核。因为多项式核只是将原始空间映射成高维空间，而高斯核将原始空间映射成了无限维，所以对应的决策面可以更复杂，可以使得数据更容易被划分（当然这样也就可能出现过拟合的情况，关于高斯核参数 $\sigma$ 的理解，上文关于支持向量机(SVM)的高斯核和惩罚因子C的理解（简单易懂）亦有介绍）。

2 L1和L2正则化的理解？有何区别？

　　L1和L2正则化项的加入都是为了避免模型的过拟合。
　

　　当模型过拟合时，为了拟合训练数据集，拟合函数需要顾及每一个点，所以就会导致拟合函数在某些区间变化较为剧烈，即拟合函数在某些区间的导数较大，而这可以通过削弱权重系数来避免。L1和L2正则化的思想就是基于这个考虑。

　　L1正则化损失函数：
${L_0} + \lambda \sum\limits_j {\left| { {\varpi _j}} \right|}$
　　实际上，L1正则化就是在原有损失函数 ${L_0}$ 的基础上加入了权重约束：
$\sum\limits_j {\left| { {\varpi _j}} \right|} \le C$
　　L2正则化损失函数：
${L_0} + \lambda \sum\limits_j {\varpi _j^2}$
　　类似的，L2正则化就是在原有损失函数的基础上加上了权重约束：
$\sum\limits_j {\varpi _j^2} \le C$
　

　　上图表示损失函数 ${L_0}$ 分别在L2和L1正则化权重约束下寻找最优解 ${\varpi ^*}$ 示意图，此时特征数维度为2，两个权重约束下的可行域分别为圆形和菱形区域。
　　所以：L1正则化约束下的最优解往往位于可行域的凸点，而凸点处的权值很多为0（上图所示）。故而L1正则化的解具有稀疏性，可用于特征选择，去掉对研究问题没有贡献的特征，而只保留某些贡献较大的特征；L2正则化约束下的最优解很难使得某些个为0,其更偏向于选择更多的特征，这些特征的权重都会接近于0。　
　　

　　再举一个特征选择的例子：当训练一个模型对语句表达的情绪（喜怒哀乐）进行判断时，什么样的特征词语与情绪相关就是一个特征选择的过程。在非常多的特征词汇中只有些许词汇能反应说话者的情绪，这时候就可以利用L1正则化的思想来对特征进行选择，去掉对研究问题没有贡献的特征。

3 常见的损失函数有哪些？

　　常见的损失函数有平方损失函数（回归损失函数），对数损失函数，指数损失函数，Hinge损失函数，感知损失函数。

3.1 平方损失函数

$\sum\limits_{i = 1}^M { { {({y_i} - f({x_i}))}^2}}$
　　其是最小二乘法的应用：常用于连续变量的回归问题。最优拟合曲线应该使得所有点的输出与实际结果之间的距离平方和最小。
　　线性回归： $L(\varpi ) = \frac{1}{ {2M}}\sum\limits_{i = 1}^M { { {[f({x_i}) - {y_i}]}^2}} ,f({x_i}) = \sum\limits_{i = 0}^N { {\varpi _i}{x_i}}$

3.2 对数损失函数

$L(Y,P(\left. Y \right|X)) = - \sum\limits_{i = 1}^M {\log P(\left. y \right|{x_i})}$
　　其与极大似然估计有异曲同工之处：利用已知的样本分布（二分类问题是0-1分布），找到最大概率导致这种分布的参数值。
　　逻辑回归（二分类）：
$L(\varpi ) = \frac{1}{M}\sum\limits_{i = 1}^M {L({ {\hat y}_i},{y_i}) = } \frac{1}{M}\sum\limits_{i = 1}^M {L(f({x_i}),{y_i}) = } \frac{1}{M}\sum\limits_{i = 1}^M { - \log P(y\left| { {x_i}} \right.) = } \frac{1}{M}\sum\limits_{i = 1}^M { - {y_i}\log { {\hat y}_i} - (1 - {y_i})} \log (1 - {\hat y_i})$
　　其中： $P(y\left| { {x_i}} \right.) = f{({x_i})^{ {y_i}}}{(1 - f({x_i}))^{(1 - {y_i})}}$ 。① 如果 ${x_i}$ 属于0类， $0\left| { {x_i}} \right.)$ 越接近1越好（此时 $-\log P(y\left| { {x_i}} \right.)$ 越靠近0）；② 如果 ${x_i}$ 属于1类， $1\left| { {x_i}} \right.)$ 越接近1越好（此时 $-\log P(y\left| { {x_i}} \right.)$ 越靠近0）。
　　Softmax分类：
$L(\varpi ) = \frac{1}{M}\sum\limits_{i = 1}^M {L(f({x_i}),{y_i}) = } - \frac{1}{M}\sum\limits_{i = 1}^M { {y_i}\log {a_i}}$
　　其中： ${a_i} =\frac{ { {e^{ {z_i}}}}}{ {\sum\limits_k { {e^{ {z_k}}}} }}(classifications),{z_i} =\sum\limits_{i = 1}^N { {w_i}{x_i}}$ 。 ${z_i}$ 是每一个类别对应的线性模型的输出，每一个类别都有一组权重需要优化。

3.3 指数损失函数

$\frac{1}{M}\sum\limits_{i = 1}^M {\exp ( - {y_i}f({x_i}))}$
　　Adaboost每次迭代的目的是为了找到最小化下列式子时的参数：
$\mathop {\arg \min }\limits_{\alpha ,G} = \sum\limits_{i = 1}^N {\exp [ - {y_i}({f_{m - 1}}({x_i}) + \alpha G({x_i}))]}$

3.4 Hinge损失函数

$\frac{1}{M}\sum\limits_{i = 1}^M {\max (0,1 - {m_i}(w))}$
　　Hinge损失函数可以用来解间隔最大化问题，典型的是SVM的代价函数：
$L(\varpi ) = C\sum\limits_i {\max (0,1 - {y_i}{\varpi ^T}{x_i})} + \frac{1}{2}{\left\| \varpi \right\|^2}$

3.5 感知损失函数

$\frac{1}{M}\sum\limits_{i = 1}^M {\max (0, - {m_i}(w))}$
　　感知损失函数是Hinge损失函数的一个变种。
　　感知机算法：输入空间 $\subseteq {R^n}$ ，输出空间 $Y=\{-1, +1\}$ ，其学习目标在于求得一个能够将训练集正实例和负实例点正确分开的超平面。其代价函数为：
$L(\varpi ) = \frac{1}{M}\sum\limits_{i = 1}^M {\max (0, - {y_i}{\varpi ^T}{x_i})}$