机器学习之统计知识

最新推荐文章于 2025-05-19 04:08:27 发布

翻译最新推荐文章于 2025-05-19 04:08:27 发布 · 484 阅读

机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

统计学

1 篇文章

订阅专栏

一、什么是最大似然估计、最大后验估计以及贝叶斯参数估计

抛掷三次硬币，如果三次都是正面，那么问下一次硬币正面朝上的概率是多少？这种情况下，我们需要根据已观察到的三次样本数据D来估算概率正面朝上的概率p。

$\bf{最大似然估计}$

一种方法是找到能最大化观测数据的似然函数 $P(D; \theta)$ 的参数 $\theta$ 的值。这里 $\theta$ 是关于概率分布P的参数，意味着参数 $\theta$ 决定了分布P，但是分布P知识说明了观测数据D成立的可能性多大。

θ * M L = a r g max θ P (D; θ)

$\theta_{ML}^{*}=arg\max_{\theta}P(D; \theta)$
这是被称作最大似然估计的最常用的参数估计方法。通过该方法，我们可以估计上述问题中

θ=1.0θ=1.0 $\theta=1.0$ 。但是直觉告诉我们这是不太可能的。对于大多数硬币还是存在反面朝上的可能性的，因此我们希望可以得到类似

θ=0.5θ=0.5 $\theta=0.5$ 的结果。

$\bf{先验和后验}$

如何将这种直觉数学化表示出来呢？我们可以定义一个观测数据和参数的联合分布概率： $P(D,\theta)=P(D|\theta)P(\theta)$ 。我们定义一个先验分布 $P(\theta)$ 来表示在观测前关于 $\theta$ 的直觉，以及在给定 $\theta$ 的情况下的条件概率 $P(D|\theta)$ 。
此时我们借助贝叶斯公式来求后验分布 $P(\theta|D)$ ：

P (θ | D) = P ( D | θ ) P ( θ ) P ( D )

$P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}$

$\bf{最大后验估计}$

对于贝叶斯公式中的分母，我们可以抛开 $P(D)$ 来讨论 $P(\theta|D)$ ，因为 $P(D)$ 与参数 $\theta$ 无关，所以并不会改变分布的相对大小。

θ * M L = a r g max θ P (θ | D) = a r g max θ P ( D | θ ) P ( θ ) P ( D ) = a r g max θ P (D | θ) P (θ)

$\begin{align*} \theta^{*}_{ML} & =arg\max_{\theta}P(\theta|D) \\ & = arg\max_{\theta}\frac{P(D|\theta)P(\theta)}{P(D)}\\ & = arg\max_{\theta}P(D|\theta)P(\theta) \end{align*}$
这就是我们说所的最大后验估计(MAP)。有很多方法可以算出参数

θθ $\theta$ 的确切值，如：共轭梯度法。

$\bf{贝叶斯参数估计}$

有了最大后验估计，可以通过先验分布来引入我们的直觉，并且忽略归一化积分，从而得到后验分布模式下的关于 $\theta$ 的点估计。
但是如果我们试着使用近似方法求积分呢？假如按通常的独立同分布假设，我们可以利用这个事实：未来可能出现的数据样本值x条件独立于给定参数 $\theta$ 时的观测值D。

P (x | D) = \int P (x, θ | D) d h = \int P (x | θ) P (θ | D) d h

$\begin{align*} P(x|D) &= \int P(x,\theta|D)dh\\ & = \int P(x|\theta)P(\theta|D)dh \end{align*}$

这与使用 $P(\theta|D)$ 模式对应的参数 $\theta$ 的单一值来计算 $P(x|D)$ 不同，而是更严格的方法，考虑了所有可能的 $\theta$ 的后验值。这种方法称为：贝叶斯参数估计。

注意，存在两个关于概率分布的重要任务：

推断：给定已知参数的联合分布，通过其他变量的边缘概率和条件概率估计一个变量子集上的概率分布。
参数估计：从数据中估计某个概率分布的未知参数

贝叶斯参数估计将这两个任务构造成了「同一枚硬币的两面」：

估计在一组变量上的定义的概率分布的参数，就是推断一个由原始变量和参数构成的元分布。

但是，做到这一点需要计算困难的积分，不得不用类似马尔可夫链蒙特卡洛算法或者变分推断等方法取近似。
（关于贝叶斯最后这些，不是很明白～）

ps：用贝叶斯观点理解L1、L2正则化

最优化问题用贝叶斯观点来看就是一种贝叶斯最大后验估计，其中正则项对应于后验估计中的先验信息，损失函数对应于后验估计中的似然函数，二者的乘积即对应贝叶斯最大后验估计的形式。针对L1、L2范数：L1范数相当于给模型参数设置 $\theta$ 了一个协方差为 $\frac{1}{\alpha}$ 的零均值laplace先验分布，L2相当于给模型参数设置 $\theta$ 了一个协方差为 $\frac{1}{\alpha}$ 的零均值高斯先验分布。