机器学习（一）：回归分析

最新推荐文章于 2024-12-05 11:27:27 发布

原创最新推荐文章于 2024-12-05 11:27:27 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #机器学习 #逻辑回归 #数据挖掘

机器学习专栏收录该内容

1 篇文章

订阅专栏

回归分析是指针对大量样本数据进行一定的拟合分析得到一种确切的，可描述不同数据量之间内在关系的一种分析方法。

在数据处理的过程中因为误差（系统误差和随机误差）导致的样本点偏离理论值的情况在一定程度上会削弱这种内在关系的直接体现，因此，我们需要滤除这些误差的干扰，对原有的数据样本抽丝剥茧，得到我们真正想要的信息。

常见的数据处理手段从线性与否进行分类有线性回归与非线性回归，从变量类型分类可以分为一元回归分析和多元回归分析,而从分析方法分类可以分为线性回归、lasso回归、岭回归和logistic回归等，本文基于分析方法逐一阐述这些分析的具体原理。

线性回归

最小二乘法

线性回归是最常见的一种回归分析方法，是指通过一定手段确定两个或两个以上变量的一种统计分析方法。

常见的线性回归方法是最小二乘法，是将变量之间的关系用多元函数关系式表示出来，其线性关系式通常可以表示为：
$\beta_0+\beta_1 x_1+\beta_2x_2+ ··· +\beta_kx_k+\varepsilon$
当我们对一组样品的每个个体做重复独立测试 $n$ 次得到 $n$ 组观测值时，则会有：
$\beta_{t0}+\beta_{t1} x_{t1}+\beta_{t2}x_{t2}+ ··· +\beta_{tk}x_{tk}+\varepsilon_t$
其中 $εt\varepsilon_t$ 是互不相关且与 $ε\varepsilon$ 同分布的随机变量，据为误差服从均值为零的正态分布。

为了简化表达，用矩阵表达上述式子为：
$X\beta+\varepsilon$

回归系数

回归系数是描述回归方程拟合准确性的特征值，罪域回归系数的理解可以认为是假设检验的过程。

求解过程

应用最小二乘法时，通常我们认为，待处理的数据矩阵是满秩矩阵
$X\beta = Y$

因此当我们定义其损失函数是方差时，采用最小二乘法最小化损失函数可以得到：
$f_{loss} = {||X\beta - Y||^2}$

当此损失函数取到最小值时，可以获得最符合样本趋势的线性方程的系数矩阵。

使用最小二乘法可以求出 $β\beta$ 的解为：
$β^=(XTX)−1XTY \widehat\beta = (X^TX)^{-1}X^TY$

正则化

lasso回归（L1正则化）

在实际中我们通常会遇到这样的情况，一组数据中有两束或者多束数据是相关的，甚至是重复的，在做线性回归分析或矩估计的过程中会重复分析这些相关的数据列（复共线性数据），导致模型的参数冗余。

例如股票的投资预测分析，昨日的收盘价格和今日的开盘价格是相关性极高的两列数据，但二者并不能完全划等号，他们各自拥有各自的含义。但是在做回归模型建立的时候我们就不能二者兼顾，这时现有的最小二乘法和矩估计就不能满足我们的要求。

在概率统计中，矩估计是属于无偏估计的一种，无偏估计的优势在于没有系统偏差，可以用方差来表示系统的优良性（样本集中）。但是这并不利于区分复共线性数据，因此我们需要引入一定的偏差，对样本数据进行有偏估计。

lasso回归的也是正则化的一种，与岭回归不同的地方在于lasso回归的惩罚项为一次，表达式为：
$f_{loss}=||X\beta - Y||^2-||\Gamma\beta||$

岭回归（L2正则化）

岭回归又称脊回归、吉洪诺夫正则化，是对不适定问题的一种常用回归分析的正则化方法。

对于矩阵，我们通常认为大多数矩阵的稳定性是良好的，但也有例外。例如希尔伯特矩阵等。这类“不良好”的矩阵有一个特性，即在矩阵内部对某个元素进行很小的变动，就会使得最后计算的结果造成很大的误差，我们把这类矩阵称为“病态矩阵”。这对数据的处理造成了很大的难度，试想，如果一组数据在扰动状态下呈现的规律不是确定的，甚至每次的 $β\beta$ 值都会发生极大的变化，那将造成何等的困扰。

对于高斯消去法来说，如果主对角线上的元素很小，那么矩阵将会呈现“病态”。

上面我们讲到，最小二乘法求解时通常矩阵是满秩的，但当矩阵不是满秩矩阵时（这里的非满秩矩阵是广义的，含有相近的共线性的数据列即可认为非满秩，并不需要完全相等或完全线性相关）则会导致 $X^TX)^{-1}$ 误差较大，因此我们发现这时传统的最小二乘法已失去了可靠性。我们把这类问题称为不适定问题。

为了解决这一问题，我们可以为上述损失函数（Loss Function）增加一个正则化项，使其变为：
$f_{loss}=||X\beta - Y||^2-||\Gamma\beta||^2$

其中，我们定义 $Γ=αI\Gamma=\alpha I$ ，于是上式可以变为：
$β^(α)=(XTX+αI)−1XTY \widehat\beta(\alpha) = (X^TX+\alpha I)^{-1}X^TY$

Logistic回归

我们先说一个概念，事件的几率（odds），是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p，那么该事件的几率是p/(1-p)。取该事件发生几率的对数，定义为该事件的对数几率（log odds）或logit函数：
$\log it(p)=\log\frac{1−p}{p}$
事件发生的概率p的取值范围为[0,1]，对于这样的输入，计算出来的几率只能是非负的，而通过取对数，便可以将输出转换到整个实数范围内。
$\log it(p(y=1|x)) = \beta_0+\beta_1 x_1+\beta_2x_2+ ··· +\beta_kx_k = \sum^{k}_{i=0}\beta_kx_k=\beta^TX$
令 $βTX=z\beta^TX=z$ 并对上述公式取反，可以得到：
$\frac{1}{1+e^{−z}}$
很明显，这是一个sigmoid函数，类似于S型生长曲线。
在这里插入图片描述
那么对于公式1，我们可以这样解释：为了实现logistic回归分类器，我们可以在每个特征上都乘以一个回归系数，然后把所有的结果值相加，将这个总和带入sigmoid函数中。进而得到一个范围在0-1之间的数值。最后设定一个阈值，在大于阈值时判定为1，否则判定为0。以上便是逻辑斯谛回归算法是思想，公式就是分类器的函数形式。