假设有一枚硬币,每次投掷后正面朝上的概率未知。我们将这枚硬币独立投掷 次,其中正面朝上出现了 次。
问题:如何估计这个硬币正面朝上的概率 ?
韩梅梅:很简单, 嘛?
李雷:不对,不管 和 是多少,这个硬币它正面朝上的 概率必须是50%啊。
韩梅梅:李雷你太顽固了,这枚硬币也没有说一定是均匀的呀,假如抛了1000次,没有1次正面朝上,你还敢说正面朝上的概率是50%吗?
李雷:如果只抛了1次,反面朝上,那按照韩梅梅你的说法,你敢说这个硬币正面朝上的概率是0%?
李雷和韩梅梅说的好像都有些道理,李雷更加重视过往积累的一般经验,而韩梅梅呢更加重视具体数据。
但要把这个事情完全讲清楚,并不是那么容易的。我们将祭出大名鼎鼎的贝叶斯公式。并介绍与之相关的三种重要的参数估计方法:极大似然估计,最大后验估计,以及贝叶斯估计。
一、从贝叶斯公式说起
假设我们要估计的参数是 ,观察到的数据是 ,这时贝叶斯公式为:
其中:
:后验概率,在观测到数据 之后,参数 的概率分布。它体现了我们在看到数据之后对参数的相信程度。
:似然函数,在参数为 时,观测到数据 的概率。它衡量了参数 下数据 出现的可能性。
:先验概率,在观测数据之前,我们对参数 的主观认识或相信程度。
:边缘似然,所有参数情况下,观测到数据 的概率。它起归一化作用,保证后验概率和为1。
为什么 叫做边缘似然呢?因为它是似然函数对 的边缘化。"边缘化"是概率论中消除联合分布中多余变量的标准操作。
贝叶斯公式告诉我们:后验概率 = 先验概率 × 似然函数 / 归一化常数。
二、极大似然估计
极大似然估计 简称MLE (Maximum Likelihood Estimation)。
极大似然估计的思路是:在所有可能的参数中,找到最有可能生成观测数据的那个参数。
对于硬币问题,单次投掷正面概率为 ,反面概率为 ,总共 次投掷,正面 次,反面 次。观测数据的似然函数为:
MLE 的目标是最大化似然函数 ,即:
通常取对数方便计算:
对 求导并令其为0:
解得:
即,极大似然估计就是正面出现的频率。
韩梅梅的估计方法实际上就是极大似然估计,完全不考虑贝叶斯公式中的先验项。
三、最大后验估计
最大后验估计 简称MAP(Maximum A Posteriori Estimation)。
最大后验估计考虑了参数的先验知识,即我们在投掷硬币前对 的主观认识。MAP 的目标是最大化后验概率:
假设 的先验是 分布,则:
则后验为:
对数化后求极值:
同样求导等于0:
解得:
当先验参数 时,MAP 就退化为 MLE。
李雷的认知,基本上就是类似 这种状态,先验强的一匹,观察到的的一点点数据很难影响他的先验认知。
四、贝叶斯估计
贝叶斯估计的目标不是给出一个点估计,而是利用后验分布的性质进行估计,常用的是后验均值(期望):
对于 Beta 先验和似然,上述后验也是 Beta 分布:
Beta 分布的均值为:
贝叶斯估计不仅给出一个点估计,还给出 的后验分布,可以反映参数的不确定性。
五、对比总结
极大似然估计(MLE):仅考虑数据本身,不引入先验知识,等价于经验风险最小化(ERM),容易受到数据量小或极端数据的影响(比如一枚新硬币只投了一次就正面朝上,MLE会认为 )。
最大后验估计(MAP):引入先验,等价于带正则化项的极大似然(如 L2 正则化对应正态分布先验, L1正则化对应双指数分布先验),相当于结构风险最小化(SRM)。
贝叶斯估计:不仅仅给出一个点估计,而是完整的参数分布,能直接反映不确定性。
在机器学习中,极大似然估计和最大后验估计最常见。极大似然对应无正则化的传统机器学习模型,最大后验估计对应带有正则化项的模型。正则化项的本质就是先验知识的体现。
经验风险最小化(ERM):只关注训练数据的拟合。
结构风险最小化(SRM):在拟合数据的基础上,增加模型的复杂度控制(正则化),有助于提升泛化能力。
贝叶斯方法虽然理论完善,但在实际大规模机器学习中的应用受限于计算复杂度,但在需要建模不确定性、数据稀缺等场景下非常有价值。
小结:
极大似然估计:只看数据,点估计,容易过拟合。
最大后验估计:数据+先验,点估计,等价于正则化。
贝叶斯估计:数据+先验,分布估计,能反映参数不确定性。
理解这些估计方法及其联系,对于深入理解机器学习模型的本质、正则化的意义,以及模型选择和泛化性能提升都至关重要。