基于完整数据的概率模型学习
在机器学习和统计学领域,基于完整数据学习概率模型是一个重要的研究方向。本文将深入探讨这一主题,涵盖从最大似然估计到贝叶斯方法,再到结构学习和非参数密度估计等多个方面。
1. 最大后验估计与最大似然估计
在逻辑案例中,我们能清晰看到复杂度与拟合度之间权衡的影响。当假设空间 $H$ 仅包含确定性假设时,若假设 $h_i$ 与数据一致,$P(d|h_i)$ 为 1,否则为 0。此时,最大后验假设 $h_{MAP}$ 是与数据一致的最简单逻辑理论,这体现了奥卡姆剃刀原则。
通过对公式 $P(d|h_i)P(h_i)$ 取对数,我们能进一步理解这种权衡。选择 $h_{MAP}$ 最大化 $P(d|h_i)P(h_i)$ 等价于最小化 $−log_2 P(d|h_i)−log_2 P(h_i)$。其中,$−log_2 P(h_i)$ 表示指定假设 $h_i$ 所需的比特数,$−log_2 P(d|h_i)$ 表示在给定假设下指定数据所需的额外比特数。因此,最大后验学习是选择能对数据进行最大压缩的假设。
若假设空间上的先验分布是均匀的,最大后验学习就简化为选择最大化 $P(d|h_i)$ 的假设 $h_{ML}$,即最大似然假设。在大数据集情况下,最大似然学习是贝叶斯和最大后验学习的良好近似,但在小数据集时会存在问题。
2. 完整数据下的学习
给定假设由某概率模型生成的数据来学习该模型的任务称为密度估计,这是一种无监督学习。当每个数据点包含待学习概率模型中每个变量的值时,数据是完整的。我们主要关注参数学习,即找到结构固定的概率模型的数值参数。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



