作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。
原创不易,转载请告知并注明出处!扫码关注公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自优快云。
二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差
欲解答上述问题,先对问题进行拆解:
1、何为高斯分布,高斯分布概率密度函数是什么
2、用什么方法推导:最大似然估计法,那最大似然估计是什么
3、如何推导,最大似然估计法推导高斯分布均值和方差的过程
那接下来我们就先对上面四个问题一个一个来看吧。
一、高斯分布
下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。
1、一元高斯分布和标准正态分布
如果数据集x服从均值为u,方差为σ\sigmaσ的一元高斯分布,其概率密度函数为

而标准一元正态分布既对数据集x进行标准化处理:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hmJAZtg5-1615555460933)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]](https://i-blog.csdnimg.cn/blog_migrate/c5a55448a570ccaca19de16492e0882d.png#pic_center)
则z服从均值为0,方差为1的标准正态分布,其概率密度函数为
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lGkii4gC-1615555460936)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]](https://i-blog.csdnimg.cn/blog_migrate/2203695843f756d9654db9e7a9785455.png#pic_center)
这里给出高斯分布满足的两条常用性质,在之后证明中会使用到:
(1)如果x∼N(u,σ2)x \sim N(u, \sigma^2)x∼N(u,σ2)且a和b是实数时,那么
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2U92jjZp-1615555460942)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image018.png)]](https://i-blog.csdnimg.cn/blog_migrate/c77bcef140a70418b344561b4dcf854e.png#pic_center)
(2)如果x∼N(ux,σx2)x \sim N(u_x, \sigma^2_x)x∼N(ux,σx2)与y∼N(uy,σy2)y \sim N(u_y, \sigma^2_y)y∼N(uy,σy2)是统计独立的正态随机变量,那么
- 他们的和也满足正态分布
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4fXkgfK-1615555460948)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]](https://i-blog.csdnimg.cn/blog_migrate/2662d3dfc8e8a13ba8bde80fe6ecda97.png#pic_center)
- 他们的差也满足正态分布

2、多元高斯分布
这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。
如果X=(x1,x2,...,xd)TX=(x_1, x_2, ..., x_d)^TX=(x1,x2,...,xd)T,且各维度之间相互独立,则X的概率密度函数为
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ew3A01z-1615555460953)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]](https://i-blog.csdnimg.cn/blog_migrate/99654ddcdf1ce6d6dcdd25ec2a72f648.png#pic_center)
对上面公式进行简化处理,先简写成

其中:

上式中Σ\SigmaΣ是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIBfHMC3-1615555461005)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image044.png)]](https://i-blog.csdnimg.cn/blog_migrate/b684b87a911bea337273cea197732e07.png#pic_center)
二、最大似然估计
先从下图中的例子泛泛的理解一下最大似然估计的思想:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfMbVQ1w-1615555461016)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image046.jpg)]](https://i-blog.csdnimg.cn/blog_migrate/445a6ee51ba227eead135e3a4e51faea.png#pic_center)
通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。
最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量Θ\ThetaΘ,记已知的样本集为:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PgEyLmf0-1615555461018)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image050.png)]](https://i-blog.csdnimg.cn/blog_migrate/36a3c3379726f822bbc009ec5c3aa1a9.png#pic_center)
似然函数,即联合概率密度函数:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NaXG6N6b-1615555461022)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image052.png)]](https://i-blog.csdnimg.cn/blog_migrate/161c7999a52533621ff28d0b0ebac59a.png#pic_center)
联合概率密度函数p(D∣Θ)p(D|\Theta)p(D∣Θ)称为相对于数据集D的参数Θ\ThetaΘ的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的Θ\ThetaΘ值
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CtNba65U-1615555461025)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image056.png)]](https://i-blog.csdnimg.cn/blog_migrate/00414b11fdc1d06febc1ae08f7444e34.png#pic_center)
实际中为了便于分析,都会将其定义为对数似然函数:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrLawFL1-1615555461029)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image058.png)]](https://i-blog.csdnimg.cn/blog_migrate/e88735cdb1a2046e90c9c6f7c993a9d3.png#pic_center)
现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。
三、最大似然估计推导高斯分布均值和方差
先有一批数据集Data X服从高斯分布,样本之间独立同分布:

用最大似然估计求解参数Θ\ThetaΘ,则对数似然函数为:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jv5ed2xF-1615555461047)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image066.png)]](https://i-blog.csdnimg.cn/blog_migrate/f3a8a4ab4d02306051e7886ec65e2c6b.png#pic_center)
其中p(xi∣Θ)p(x_i|\Theta)p(xi∣Θ)即是高斯分布的概率密度函数

因此均值为

对上述函数求导极值点既是极小值

则可得其均值为
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XLdnAJ2g-1615555461104)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image088.png)]](https://i-blog.csdnimg.cn/blog_migrate/76427d3d8b419c5b8df6b7a658dff19d.png#pic_center)
至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差

因此可以求得参数方差为
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-caFFkef6-1615555461132)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image102.png)]](https://i-blog.csdnimg.cn/blog_migrate/55c9e2062ab84a6be9a378899357d5b1.png#pic_center)
至此我们已经通过最大似然估计求得了高斯分布的均值和方差

3229





