机器篇——线性回归 公式 图文 代码 相互结合详细讲解

本文详细介绍了线性回归的理论基础,包括回归、中心极限定理、最大似然估计和概率密度函数。接着,探讨了一元和多元线性回归、梯度下降法以及正则化在防止过拟合中的应用。此外,还介绍了正则化方法,如Lasso和Ridge回归。最后,涵盖了广义线性回归的不同方法,如普通最小二乘法、Lasso、Ridge和弹性网络。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.线性回归的相关理论

   1.回归

         大自然总是让我们回归到一定的区间之内。就好像,除了少数的伟人,我们绝大部分人会回归到平凡,成人普通人。而那些伟人很少,普通民众很多,整体分布就类似于正态分布图一样。这,也是我们回归的分布图。

          在英雄的传记里面,英雄往往就那么几个人,而整个世界,基本是普通人。这,也是绝大部分人,都会被回归普通,回归平凡,那些英雄只是特例。

         

   2.中心极限定理

         (1).概率论中讨论随机变量序列部分和分布逐近于正态分布的一类定理

         (2).这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件

         (3).在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作使你服从正态分布的。

 

   3.最大似然估计

         (1).最大似然估计是一种统计学方法,它用来求一个样本集的相关概率密度函数的参数。

         (2).最大似然估计法明确的使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。

         (3).最大似然函数:

                a.总体x为离散型时:(离散型,就用概率的方法算)

                       \LARGE L(\theta) = \prod_{i = 1}^{m}p(x_{i}, \theta)

                      \LARGE lnL(\theta) = \sum_{i = 1}^{m}lnp(x_{i}, \theta)

                        

                b.总体x为连续型时:(连续型,就用积分的方法算)

                     \LARGE L(\theta) = \prod _{i = 1}^{m}f(x_{i}, \theta)

                     \LARGE lnL(\theta) = \sum _{i = 1}^{m}lnf(x_{i}, \theta)

                      

        (4).对数似然函数:

              对似然函数两边取对数,对 lnL(θ) 求导,并令之为0: 

                     \LARGE \frac{\partial lnL(\theta)}{\partial \theta} = 0

                         

             解对数似然方程所得,即为未知参数的最大似然估计值。

 

   4.概率密度函数

        (1).在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

        (2).而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。

        (3).正太分布是重要的概率分布,它的概率密度函数是:

                    \LARGE f(x) = \tfrac{1}{\sqrt{2\pi}\sigma }e^{-\tfrac{(x - \mu )^2}{2\sigma ^2}}

                    \LARGE \mu:为正太分布中的误差期望,误差期望值越小越好,最好为0.

                    \LARGE x:为误差值,\LARGE x_{i} = |y_{i} - \hat{y}_{i}|\LARGE y_{i}为真实值,\LARGE \hat{y}_{i}为预测值,\LARGE x等价于\LARGE \varepsilon,即 \LARGE x = \varepsilon

                    \LARGE \sigma:为标准差,\LARGE \sigma ^ 2:为方差

                    当 \LARGE \mu = 0 时:

                    \LARGE f(\varepsilon _{i}) = \tfrac{1}{\sqrt{2\pi}\sigma }e^{-\tfrac{\varepsilon_{i}^2}{2\sigma^2}}

               

   5.从最大似然估计到采样的最大可能性

       给定一个概率分布D,已知其概率密度函数(连续分布),或概率质量函数(离散分布)为f_{D},以及一个分布参数θ,可以从这个分布中抽出具体n个值的采样x_{1}x_{2}x_{3}........x_{n},利用f_{D}计算出其似然函数:

              \LARGE like(\Theta | x_{0}, x_{1}, x_{2}, ......, x_{n}) = f_{\theta }(x_{0}, x_{1}, x_{2}, ......, x_{n})

       (1).若D是离散分布,f_{\theta }即是在参数为θ时观测到这一采样的概率

       (2).若D是连续分布,f_{\theta }则为x_{1}x_{2}x_{3}........x_{n}联合分布的概率密度函数在观测值处的取值。

       (3).一旦获得x_{1}x_{2}x_{3}........x_{n},就能求得一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即,在所有可能的θ值中,寻找到一个值,使得这个采样的“可能性”最大化)。

       (4).这个使可能性最大的θ值,即称为最大似然估计。

 

   注意:

            给出上面这些概念,是因为,接下来要讲的线性回归,是服从正太分布,服从中心极限定理,服从最大似然估计的。这,就是为什么,在线性回归中,需要用正态分布的概率密度函数。因为,如果不服从上面这些理论,就没办法用下面的线性回归。上面的定理,是前提。

 

二.线性回归

   1.一元线性回归:

       当只有一个因素(特征)的时候:

               \LARGE y = ax + b 

       也就是二维空间中的一条直线

 

   2.多元线性回归:

       当不止一个因素(特征)的时候:

              \LARGE y = a_{0}x_{0} + a_{1}x_{1} + a_{2}x_{2} +........+ a_{n}x_{n}

       也就是高维空间中的一条直线

       (1).在机器学习中一般写成:

               \LARGE y = \huge w_{0}x_{0} + w_{1}x_{1} + w_{2}x_{2} + ...... + w_{n}x_{n}

              因为一般规定 x_{0} = 1,所以上式一般写成:

               \LARGE y = w_{0} + w_{1}x_{1} + w_{2}x_{2} + ...... + w_{n}x_{n}

               通过式子计算出来的 \hat{y}_{i} 为 预测值,真实的 y_{i} 为真实值。

       (2).令  \large \theta = (w_{0}, w_{1}, w_{2}, ......, w_{n}),    \large X = (x_{0}, x_{1}, x_{2}, ......, x_{n})

              则

                        \LARGE \theta ^T = \bigl(\begin{smallmatrix} \\ w_{0} \\ w_{1} \\ w_{2} \\... \\ w_{n} \end{smallmatrix}\bigr)

             所以有:    \LARGE y = \theta ^{T}X

                    \LARGE = w_{0}x_{0} + w_{1}x_{1} + w_{2}x_{2} + ...... + w_{n}x_{n}

       (3).误差 \LARGE \varepsilon

              \LARGE \varepsilon = | y - \hat_{y} \LARGE | = |y - \theta ^{T}X| 

              \LARGE \varepsilon _{i} = |y_{i} - \hat_{y_{i}} \LARGE | = |y_{i} - \theta ^{T}x_{i}|

 

   3.线性回归的目标函数求解:

       (1).将线性回归的误差带入到线性回归的正太分布概率密度函数中,有:

              \LARGE p(\varepsilon _{i}) = \tfrac{1}{\sqrt{2\pi }\sigma}e^{-\tfrac{\varepsilon_{i}^2}{2\sigma^2}} 

              \LARGE p(y_{i}|x_{i}, \theta ) = \tfrac{1}{\sqrt{2\pi }\sigma}e^{-\tfrac{(y_{i} - \theta ^Tx_{i} )^2}{2\sigma ^2}}

       (2).根据最大似然求概率函数: \huge (x_{mn})

              \LARGE L(\theta ) = \prod_{i = 1}^{m}p(y_{i}|x_{i}, \theta )

                                   \LARGE = \prod_{i = 1}^{m}(\tfrac{1}{\sqrt{2\pi }\sigma}e^{-(y_{i} - \theta ^Tx_{i})^2/(2\sigma^2)})

       (3).目标函数

              \LARGE l(\theta ) = lnL(\theta )

                                 \LARGE = ln\prod_{i = 1}^{m}(\tfrac{1}{\sqrt{2\prod }\sigma}e^{-\tfrac{(y_{i} - \theta ^Tx_{i} )^2}{2\sigma ^2}})

                                \LARGE = \sum_{i = 1}^{m}ln(\tfrac{1}{\sqrt{2\prod }\sigma}e^{-(y_{i} - \theta ^Tx_{i})^2/(2\sigma^2)})

                               \LARGE = \sum_{i = 1}^{m}ln\tfrac{1}{\sqrt{2\prod }\sigma} + \sum_{i = 1}^{m}ln(e^{-(y_{i} - \theta ^Tx_{i})^2/(2\sigma^2)})

                               

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值