似然函数和对数似然

原创已于 2023-12-06 10:21:03 修改 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2023-12-06 08:52:22 首次发布

AI 专栏收录该内容

25 篇文章

订阅专栏

文章讲述了似然函数在线性回归中的应用，如何通过将误差项代入正态分布的概率密度函数并计算乘积来估计参数。介绍了对数似然的使用，以解决乘法运算的问题，并指出对数似然函数的优化形式——最小化误差项平方和，即最小二乘法。

似然函数是将线性回归模型的输出（或者说误差项 $\epsilon^{(i)}$ ）代入其概率密度函数（正态分布的PDF），然后对所有数据点的这些概率进行乘积，从而得到整体数据集在给定参数下出现的可能性。
对于简单的线性回归模型，我们有如下的公式：
$y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}$
其中， $y^{(i)}$ 是响应变量， ${ x^{(i)}}$ 是特征向量， $θ$ 是模型的系数，而 $\epsilon^{(i)}$ 是误差项。
在构建似然函数时，我们通常假设误差项 $\epsilon^{(i)}$ 遵循正态分布，即 $\epsilon^{(i)} \sim N(0, \sigma^2)$ ，这里概率密度函数为：
$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right)$
在这个假设下，将线性回归模型代入概率密度函数，对于单个观测值 $y^{(i)}$ ，其概率密度函数可以表示为：
$p(y^{(i)} | x^{(i)}, \theta, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)$
这里， $y^{(i)} - \theta^T x^{(i)}$ 实际上就是误差项 $\epsilon^{(i)}$ 。

似然函数 $L(\theta, \sigma^2 | X, Y)$ 是在所有观测数据下这些概率密度函数的乘积：

$L(\theta, \sigma^2 | X, Y) = \prod_{i=1}^{n} p(y^{(i)} | x^{(i)}, \theta, \sigma^2)$

这里，( X ) 和 ( Y ) 分别代表所有的特征向量和响应变量。

在最大似然估计（MLE）中，目标是找到参数 $\theta$ 和 $\sigma^2$ ，使得这个似然函数最大化。这些参数是在给定数据下最能解释观测到的数据的参数。

总结来说，似然函数是将线性回归模型的输出（或者说误差项 $\epsilon^{(i)}$ ）代入其概率密度函数（正态分布的PDF），然后对所有数据点的这些概率进行乘积，从而得到整体数据集在给定参数下出现的可能性。

对数似然：由于似然函数是乘法运算，导致运算效率低，通过Log对数运算把乘法运算转换为加法运算能极大提升效率，并且加法运算能解决大量乘法运算的数值下溢问题。对数函数是单调递增的，所以它不改变似然函数最大值的位置。因此在许多统计分析和机器学习应用中，大都会使用对数似然而不是原始的似然函数。
对于线性回归模型的例子，假设误差项服从正态分布，似然函数可以表示为：

$L(\theta, \sigma^2 | X, Y) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)$