概率论与数理统计-第12篇:概率密度估计与生成模型
一、从数据到分布:概率密度估计的意义
在人工智能领域,许多任务需要对数据的概率分布有深入理解。例如,在图像生成中,我们希望模型能够学习到真实图像数据的分布,从而生成逼真的图像;在异常检测中,通过估计正常数据的概率密度来识别偏离该分布的异常点。概率密度估计就是从给定的样本数据出发,推断其背后的概率密度函数(PDF),为生成模型、数据建模等提供基础。
二、参数化概率密度估计
1. 原理与方法
参数化方法假设数据服从某种已知的概率分布形式,如正态分布、泊松分布等,然后通过样本数据估计分布的参数。最常用的参数估计方法是极大似然估计(MLE)和贝叶斯估计。
-
极大似然估计:寻找使样本出现概率最大的参数值。例如,对于一组来自正态分布N(μ,σ2)N(\mu, \sigma^2)