2019.05.24 对于xgboost算法的了解

分类回归、正则化及相关概念解析

最新推荐文章于 2025-07-20 21:32:23 发布

RazorH

最新推荐文章于 2025-07-20 21:32:23 发布

阅读量355

点赞数

分类专栏：日记

日记专栏收录该内容

22 篇文章

订阅专栏

博客围绕分类回归、正则化等概念展开。介绍了分类与回归的区别及应用场景，指出分类输出离散，回归输出连续。阐述正则化用于防止过拟合，通过在代价函数加惩罚项收缩参数。还解释了目标函数、损失函数和代价函数的概念，并比较了分类与聚类，提及了cart树。

https://www.jianshu.com/p/7467e616f227

以此为学习路径开始了解xgboost

https://blog.youkuaiyun.com/laobai1015/article/details/83059178

1.先了解一下什么是分类回归

分类 classification

回归 regression

分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。

对于如何区分二者，其他回答已经说得很好了。如何区分类与回归，看的不是输入，而是输出的连续与否。例如：

云青青兮欲雨。

这个“云青青”就是输入，“青青”就是云的特征，而雨就是我们的预测输出。可以看到，在这个问题中，我们想得到的输出是天气，他是晴朗、阴天等天气状况的子集，是不连续的，所以这就是一个典型的分类问题。

再例如：

The words are lovely, dark and deep,

But I have promises to keep;

And miles to go before sleep,

And miles to go before sleep.

这例子中我们可以知道，树林的特征是['lovely','dark','deep']，由此预测出前面路还很长。而这里的miles是一个数字，它是连续的值，所以这个例子就是回归

1.回归问题的应用场景

回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

2.分类问题的应用场景

分类问题是用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。

2.正则化是什么？

首先，从使用正则化的目的角度：正则化是为了防止过拟合

过拟合？

过拟合现象：如果我们使用高阶多项式，变量（特征）过多，那么这个函数能够很好的拟合训练集，但是却会无法泛化到新的数据样本中（泛化：一个假设模型能够应用到新样本的能力）。

当存在较多的变量，较少的训练数据，使得没有足够的训练集来约束这个变量过多的模型，就会导致过拟合的现象。

图三就是过拟合

1. 解决过拟合问题：

1）减少变量的个数：舍弃一些变量，保留更为重要的变量。但是，如果每个特征变量都对预测产生影响。当舍弃一部分变量时，也就舍弃了一些信息。所以，希望保留所有的变量。

2）正则化：保留所有的变量，将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏，使每一个变量都对预测产生一点影响。

二. 正则化的思路：

如果参数对应一个较小的值，那么会得到形式更加简单的假设。惩罚高阶参数，使它们趋近于0，这样就会得到较为简单的假设，也就是得到简单的函数，这样就不易发生过拟合。但是在实际问题中，并不知道哪些是高阶多项式的项，所以在代价函数中增加一个惩罚项/正则化项，将代价函数中所有参数值（约定一般不惩罚theta_0, 惩罚从theta_1开始到theta_n

）都最小化，收缩每一个参数。

参数值越小模型越简单(预防过拟合)的原因：

因为越复杂的模型，越是会尝试拟合所有的训练数据，包括一些异常样本，这就容易造成在较小的区间内预测值产生较大的波动，这种大的波动反映了在某些小的区间里导数值很大。而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。

正则化参数要做的就是控制两个目标之间的平衡关系：在最小化训练误差的同时正则化参数使模型简单。

1.最小化误差是为了更好的拟合训练数据。

2.正则化参数是为了防止模型过分拟合训练数据。

所以正则化参数要保证模型简单的基础上使模型具有很好的泛化性能。

3.目标函数，损失函数，代价函数是什么？

基本概念：

损失函数：计算的是一个样本的误差

代价函数：是整个训练集上所有样本误差的平均

目标函数：代价函数 + 正则化项

实际应用：

损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，举例说明：

上面三个图的曲线函数依次为f1(x),f2(x),f3(x)，我们想用这三个函数分别来拟合真实值Y。

我们给定x，这三个函数都会输出一个f(X)，这个输出的f(X)与真实值Y可能是相同的，也可能是不同的，为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度。这个函数就称为损失函数(loss function)，或者叫代价函数(cost function)。

机器学习中有常见的两类大问题，一个是分类，一个是聚类。

分类与聚类的比较

聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
在分类中，已知存在哪些类，即对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量（例如：距离）为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化。
与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据样本有类别标记。