统计学习三要素之策略

  李航老师在《统计学习方法》中讲过:统计学习方法都是由模型、策略和算法构成的。在这篇博文中,学习一下策略。

  策略就是在有了模型的假设空间之后,考虑按照什么样的准则学习或者选择最优的模型,统计学习的目标就在于从假设空间中选取最优模型。策略其实可以认为是根据模型导出来的目标函数、评价函数。


(1)损失函数:

   (a)0-1损失函数。

          

        0-1损失函数就是预测值与真实标签相同为0,不相同为1。

   (b)平方损失函数(quadratic  loss  function)

      

        线性回归中使用的最小二乘法就是平方损失函数

   (c)绝对损失函数(absolute  loss  fuction)

      

   (d)对数损失函数(logarithmic  loss  function)

      

       逻辑斯蒂回归中的逻辑斯蒂损失就属于对数损失

   (e)合页损失 (hinge loss)  支持向量机SVM中用到的。

   (f)指数损失  提升树里面用到的。




(2)给定一个训练数据集,模型f(x)关于训练数据集的平均损失称为经验风险或者经验损失

        

  在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式(上式形式就可以确定)。经验风险最小化认为(ERM)策略认为,经验风险最小的模型是最优的模型。根据这个策略,模型就是求解最优化问题:

       

  当样本量足够大的时候,经验风险最小化能保证有很好的学习效果,在现实中广泛被采用。但是当样本容量很小时,经验风险最小化的学习效果就未必很好,会产生过拟合(over-fitting)现象。

       结构风险最小化(SRM)是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险最小化就是在经验风险上加上表示模型复杂度的正则化项或者罚项。

      

  模型f越复杂,复杂度就越高,模型越简单,复杂度就越小。即复杂度表示了对复杂模型的惩罚。

  结构风险最小化策略认为结构风险最小的模型是最优模型,所以求最优模型时,就是求解最优化问题:

      

  第二部分内容就是主要介绍了经验风险最小化与结构风险最小化。两者的联系与区别。



(3)模型评估与模型选择

  统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法得到不同的模型。当损失函数给定时,基于损失函数的模型的训练误差(train error)和模型的测试误差(test error)就成了学习方法评估的标准。

  训练误差的大小,对判定给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要测试误差反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。显然,给定两种学习方法,测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力。

  如果一味追求提高训练数据的预测能力,所选模型的复杂度往往会比真模型更高。这种现象称为过拟合。过拟合是指学习时所选择的模型所包含的参数过多,以至于出现的这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。

         

  即在进行模型选择时,不仅要考虑对已知数据的预测能力,还要考虑对未知数据的预测能力。即结果好,还不复杂。

       当模型的复杂度增大时,训练误差会逐渐减小并趋向于0.而测试误差会先减小后增大。当选择的模型的复杂度过大时,过拟合现象就会发生。即在学习时,要防止过拟合选择复杂度适当的模型,以达到使测试误差最小的学习目的。

  过拟合可能的原因:

  (1)建模样本抽取错误,包括(但不限于)样本数量太少抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景;

  (2)就是样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;这堆数据带有噪声,利用模型去拟合这堆数据,可能会把噪声数据也给拟合了,这点很致命,一方面会造成模型比较复杂(想想看,本来一次函数能够拟合的数据,现在由于数据带有噪声,导致要用五次函数来拟合,多复杂!),另一方面,模型的泛化性能太差了(本来是一次函数生成的数据,结果由于噪声的干扰,得到的模型是五次的),遇到了新的数据让你测试,你所得到的过拟合的模型,正确率是很差的。

   (3)建模时的“逻辑假设”到了模型应用时已经不能成立了。任何预测模型都是在假设的基础上才可以搭建和应用的,常用的假设包括:假设历史数据可以推测未来,假设业务环节没有发生显著变化,假设建模数据与后来的应用数据是相似的,等等。如果上述假设违反了业务场景的话,根据这些假设搭建的模型当然是无法有效应用的。

 (4)参数太多、模型复杂度高。

 (5)决策树模型。如果我们对于决策树的生长没有合理的限制和修剪的话,决策树的自由生长有可能每片叶子里只包含单纯的事件数据(event)或非事件数据(no event),可以想象,这种决策树当然可以完美匹配(拟合)训练数据,但是一旦应用到新的业务真实数据时,效果是一塌糊涂

 

 

解决方法:

  (1)early stoping.其实就是限制迭代次数。这个参数学习的过程往往会用到一些迭代方法,如梯度下降(Gradientdescent)学习算法。Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。

  (2)扩增数据。一份好的数据胜过一个好的模型。

  (3)交叉验证

  (4)正则化

  这一部分内容还是蛮重要的面试官经常会问到。

<think>嗯,用户想了解机器学习的三个基本要素,根据问题中的引用内容,我需要确认这三个要素是什么。首先,引用[2]明确提到“模型、策略、算法”,但用户提到的引用[1]和引用[3]则提到了“数据、模型、算法”。这里可能存在不同来源的分歧。 接下来,我需要核对提供的引用内容。根据用户提供的引用: - 引用[1]:“探索机器学习三要素:模型、算法与数据的交融之旅”,明确指出模型、算法、数据。 - 引用[2]:“机器学习方法三要素理解:模型、策略、算法”,这里提到了策略。 - 引用[3]:“机器学习三要素之数据、模型、算法”,与引用[1]和[3]一致。 看起来存在两种不同的三要素说法。用户的问题中提到的是“数据、模型、算法”,而引用[2]则提到了策略。这时候需要解释这两种不同的观点,并说明它们的背景。 可能的情况是,不同学者或资料有不同的划分方式。例如,李航的《统计学习方法》中提到的是模型、策略、算法,而其他资料可能将数据作为基础要素加入。因此,需要指出这两种不同的分类,并解释各自的侧重点。 同时,用户的问题直接引用了站内的三个引用,其中两个明确提到数据、模型、算法,另一个提到模型、策略、算法。因此,在回答中需要说明这两种不同的观点,并引用对应的来源。 此外,用户可能需要了解为什么会有不同的三要素划分。例如,模型、策略、算法更侧重于方法论的内部结构,而数据、模型、算法则强调数据作为驱动力。需要将这两种观点都解释清楚,并引用对应的参考文献。 最后,生成的相关问题需要覆盖这两个方面,例如关于不同三要素的区别,或者数据在其中的角色等。</think>### 机器学习三要素详解 机器学习的核心要素通常包括以下三个方面: #### 1. 数据:驱动机器学习的动力源泉 数据是构建和训练模型的基础,分为训练数据、验证数据和测试数据。训练数据用于参数学习,验证数据用于调优超参数,测试数据用于最终性能评估。数据质量直接影响模型的泛化能力[^3]。 数学表达式示例: 训练过程可表示为最小化损失函数: $$ \min_{\theta} \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i; \theta)) $$ 其中 $L$ 为损失函数,$\theta$ 为模型参数[^2]。 #### 2. 模型:构建学习的数学框架 模型是对现实问题的数学抽象,常见类型包括: - 线性模型:$f(x) = w^T x + b$ - 神经网络:$f(x) = \sigma(W_n \cdots \sigma(W_1 x + b_1) + b_n)$ - 决策树:基于特征空间划分的规则集合[^1] #### 3. 算法:实现参数优化的引擎 算法通过数据驱动模型参数更新,主要分为: - 梯度下降:$\theta_{t+1} = \theta_t - \eta \nabla_\theta L$ - 随机优化:如Adam算法 - 解析方法:如线性回归的闭式解 $w = (X^TX)^{-1}X^Ty$ ### 不同观点的融合 值得注意的是,部分文献(如李航《统计学习方法》)提出另一组三要素: 1. **模型**:假设空间 2. **策略**:损失函数与风险最小化准则 3. **算法**:参数优化方法 这两种分类本质相通,前者强调**数据的基础作用**,后者侧重**方法论的构成要素**。数据作为外部驱动力与模型算法形成闭环系统,共同实现从数据到知识的转化[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值