【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】从概率角度看线性回归-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_48520962/article/details/139034465

从概率角度来看线性回归

从机器学习的角度看，线性回归需要通过一个函数建模 $x, y$ 之间的关系；而从概率的角度看，则是要表示出在给定 $x$ 下随机变量 $y$ 的条件概率。
但通常 $y$ 是一个定值，为了计算 $y$ 在给定 $x$ 下的条件概率 $p (y ∣ x)$ ，首先要将 $y$ 看作一个随机变量。可以先用一个函数表示出一个连续函数，在对该函数进行采样时添加一个服从均值为0方差为 $\sigma^2$ 的噪声 $\epsilon$ ，最后得到连续随机变量 $y$ 的概率密度函数：
$y=f(x,w)+\epsilon, \ \ \epsilon\in(0,\sigma^2)$
在这里插入图片描述

对线性回归来说， $f(x,w)=w^Tx$ ，于是 $y=w^Tx+\epsilon$ ，移项得 $\epsilon=y-w^Tx$ ，由于 $\epsilon$ 服从高斯分布，它的概率分布函数为：
$p(\epsilon;0,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(\epsilon-0)^2}{2\sigma^2})}=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(\epsilon)^2}{2\sigma^2})}$
将 $\epsilon=y-w^Tx$ 带入上式¹可得给定 $x$ 下 $y$ 的条件概率：
$p(y|x;w,\sigma)=\mathcal{N}(y;w^Tx,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(y-w^Tx)^2}{2\sigma^2})}$
这样也可以说 $y$ 是满足均值为 $w^Tx$ ，方差为 $\sigma^2$ 的高斯分布，即 $y\in\mathcal{N}(w^Tx, \sigma^2)$ 。由此得出待优化模型。

似然函数（Likehood）

对于 $p (x; w)$ 来说，概率是指在参数 $w$ 固定的情况下，随机变量 $x$ 的概率分布，即将随机变量 $x$ 看作自变量。而与概率相反，似然指已知随机变量 $x$ 的情况下，不同参数 $w$ 的取值对随机变量 $x$ 取值分布的影响，即将参数 $w$ 看作自变量。
对于线性回归，参数 $w$ 在训练集 $D$ 上的似然函数为：
$p(y|X;w,\sigma)=\prod_{n=1}^Np(y^{(n)}|x^{(n)};w,\sigma)=\prod_{n=1}^N\mathcal{N}(y^{(n)};w^Tx^{(n)},\sigma^2)$
要特别注意其中的自变量是 $w$ 。此外， $y=\begin{bmatrix}y^{(1)}\\\vdots\\y^{(n)}\end{bmatrix}$ ， $X=\begin{bmatrix}x^{(1)}&x^{(2)}&\cdots&x^{(n)}\end{bmatrix}$ ，由于 $y$ 和 $X$ 独立同分布²（这里是默认 $X$ 也服从高斯分布），因此整体的似然函数可以分解为每个样本似然函数的连乘。

最大似然估计（Maximum Likelihood Estimate，MLE）

有了似然函数之后，需要通过一个准则来优化似然函数中的参数 $w$ ，使得似然函数最大，这个过程就是最大似然估计，即找到一组参数 $w$ 使得似然函数 $p(y|X;w,\sigma)$ 最大。
同时，对于指数型的似然函数（ $e$ 的n次方，即 $\exp$ ），通常还会在计算偏导数时加上 $\log$ （这里的 $\log$ 只是表明是对数函数，不单独指以某个值为底数）转换成对数型的似然函数，转换成对数函数之后，在求偏导数时就能将连乘（ $\prod$ ）转换为连加（ $\sum$ ），方便下一步计算。同时，由于 $\exp(x)$ 和 $ln^x$ 都单调递增，所以二者的复合仍单调递增（同增异减），函数单调性不变，因此极值点不变。