机器学习的基本概念
感谢前辈们百忙中抽空做的ppt
1. 基本概念
通俗的讲,机器学习就是让计算机从数据中进行自动学习,得到某种知识(或规律)。作为一门学科,机器学习通常指如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或者无法观测数据进行预测,这类问题的解决方法。
机器学习一般包括监督学习、无监督学习、强化学习。
监督学习是从标注数据(已知数据特征和结果)中学习预测模型的机器学习问题,标注数据表示输入输出的对应关系,预测模型对给定输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。


无监督学习是从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。


强化学习指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质为学习最优的序贯策略。

2. 机器学习的三个基本要素
机器学习是从有限的观测数据或(猜测)出具有一般性的规律,并可与将总结出来的规律推广到观测样本上。机器学习的方法可以粗略的分为三个基本要素:模型,学习准则,优化算法 。
1. 模型




2. 学习准则




一个好的模型应该有一个较低的期望风险,但是因为不知道真实的数据分布和映射函数,所以期望风险实际上无法计算,所以引入了经验风险:

我们的目标是找到一个最优参数θ*来使得经验风险最小:

这就是经验风险最小化准则。

根据大数定理,当训练数据接近于无穷时,经验风险趋向于期望风险。但是通常情况下,训练数据是有限的,并且隐含着一定的噪声,所以训练数据可能并不能很好的反映真实数据的分布情况,所以期望风险最小化准则就很容易造成在训练集上错误率很低,但是在预测的时候错误率很高。也就是过拟合。
为了尽可能减小过拟合风险,我们一般在经验风险最小化的基础上再加入正则化项。这就是结构风险最小化准则。

分类拟合图像:

所以机器学习准则不仅仅是看训练数据拟合的好不好,更要看泛化性能。
3. 优化方法:梯度下降
确定了训练数据,学习准则,如何找到最优模型f(x,θ*)拟合数据就成为了一个最优化问题。
很多机器学习方法都倾向于选择一个合适的模型和损失函数,以构造一个以凸函数为优化的目标。但是很多情况下优化的函数是非凸的,比如神经网络,对于非凸的函数,我们很难找到最优解,只能退而求其次,选择局部最优解。在机器学习中,最常用的优化方法是梯度下降法。



刚刚我们提到的梯度下降法属于批量梯度下降,除了批量梯度下降外,还有随机梯度下降、小批量(Mini-Batch )梯度下降。
批量梯度下降的特点:一次参数优化需要学习所有的样本。
随机梯度下降的特点:一次参数优化只学习一个样本。
Mini-Batch 梯度下降的特点:介于批量梯度下降算法和随机梯度下降算法之间的算法,通过学习一小批样本,更新一次参数 𝜃 。
3. 模型的评估和选择
为了衡量一个机器学习模型的好坏(泛化性),需要给定一个测试集,用模型对测试集中的每一个样本进行预测,并根据预测值和真实值的差距计算评价分数。
1. 评价指标-分类
在分类问题中,常见的评价指标有:准确率、精确率、召回率、F1指标和混淆矩阵。
精确率和召回率不可以同时提高。
- 提高召回率(减少漏检)通常需要放宽分类阈值,导致更多假阳性(FP增加),从而降低精确率。
- 提高精确率(减少误判)通常需要严格阈值,导致更多假阴性(FN增加),从而降低召回率。

假设一个瓜地有50个西瓜,共有30个好瓜,20个坏瓜,通过模型判断得到如下结果:

准确率 Accuracy:所有正确分类的样本与总样本数比例。(表示整体判断的正确性,综合了好瓜和坏瓜的预测结果。)

精确率 Precision:我们预测为正样本中有多少是正确的概率。(关注的是“被预测为好瓜的瓜”中有多少是真正的好瓜。)

召回率(Recall):实际为正的样本中被预测为正样本的概率。(关注的是“所有的好瓜”中有多少被正确找出来了。)

F1(F1-Measure): F1值就是 精确值 和 召回率 的调和均值。

2. 评价指标-回归
在回归问题中,常见的评价指标有:均方误差(MSE),均方根误差(RMSE)。
均方误差(MSE):均方误差是反映估计量与被估计量之间差异程度的一种度量。

均方根误差(RMSE): 衡量预测值同真实值之间的偏差。(保证了量纲一致性 )

4. 额外解释
1. 偏导数与全微分
函数在点x0处的微分dy表示曲线在该点处切线纵坐标的增量。

如果一个曲面在x0,y0点附近的图像,可以用一个平面来近似。那么这个平面就被称为曲面在x0,y0点的微分,又称为全微分。
两条相交直线能决定一个平面。
求全微分需要求对y的偏微分和对x的偏微分

下图是对x的偏微分

在多变量微积分中,以下导数被称为函数在(x0,y0)点对x的偏导数

完整定义如下

那么对x的偏微分则为骗到苏乘以自变量的增量dx
d z = f x ( x 0 , y 0 ) d x dz=f_x(x_0,y_0)dx dz=fx(x0,y0)dx
最后求得全微分的表达式
d z = f x ( x 0 , y 0 ) d x + f y ( x 0 , y 0 ) d y dz=f_x(x_0,y_0)dx+f_y(x_0,y_0)dy dz=fx(x0,y0)dx+fy(x0,y0)dy

2. 梯度
曲面上的点沿c2方向的变化率,就是函数f在其方向u2上的方向导数。

在可微分的情况下,方向导数可以被偏导数线性表示。
α \alpha α与 β \beta β是函数的两个偏导数与方向向量u的夹角。

梯度的值是方向导数的最大值
将原式改写成点乘形式,表示方向导数是向量v在eu上的投影

假设向量v和向量eu的夹角为
θ
\theta
θ

易知向量v的模长即为方向导数中的最大值



参考
ppt
8801

被折叠的 条评论
为什么被折叠?



