机器学习中的概率论(一)
机器学习现在越来越热门了,而且在网上有非常多的教程。而我写的这篇文章是写给对数学有极高兴趣的读者的,里面涉及的基本上都是数学方面的原理,而很少涉及到编程语言。原因有两个:(1)我对编程语言掌握的并不好;(2)我对机器学习感兴趣的更多是其中的数学原理。而我在网上很少有看到详细阐述其中深刻的数学原理的文章(也可能是我见识短浅),因此我想写这样的一篇博客,将我所掌握的一些数学知识分享出去。文章主要参考了马春鹏翻译的《模式识别与机器学习》。由于是第一次写这样的文章,望各位大佬多多包涵。
这次我就讲一些大家都熟知的一个事实:当数据量极其大的时候,事件发生的频率近似地与它发生的概率相等。在这篇博客中,我将简单地用数学知识来说明这为什么是对的。
我们从简单的抛硬币开始吧。x描述了扔硬币的结果,
其中0≤μ≤1,则x的分布概率可以写成
现在,我们假设有一组关于x的观测数据集
其对应的对数似然函数为
最大化似然函数得
即正面朝上的概率就是观测到正面朝上所占的比例。
然而,这并不完全正确。让我们思考一个例子,假设我们只抛了三次硬币,并且这三次都是正面朝上,则代入上述结果,得到μ=1,即正面朝上的概率为百分之百。这明显不符合我们的日常经验。
为了修正这个误差,我们需要引入μ的先验分布,也就是说μ也是满足一个分布函数的。如果我们选择一个正比于μ与(1−μ)的幂指数的先验概率分布,那么后验概率就会有着与先验分布相同的函数形式。这个性质叫做共轭性。
在这里,我们将先验分布选为Beta分布,定义为
其中
当x取正整数时,有
同时,我们可以得到,观测到m次
我们把这个分布称为二项分布。
我们将二项分布与Beta分布相乘,得到 μ的后验概率分布为
根据概率的加和规则与乘积规则,得
则有
此时,我们得到
由此,我们得到了文章开头得到的结论:当数据量极其大的时候,事件发生的频率近似地与它发生的概率相等。
当然,这只是大数定理的一个简单验证,但是这个过程中所体现的数学思想极其深刻。尽管要理解这些有点难度,但是当我把这些问题想清楚时,我深深地被其中深刻的思想所折服,这也是我认为的数学的魅力所在。
若对本文有什么意见或建议,欢迎与我交流。本人的qq号如下:1135778478。第一次写博客,写得不好,请见谅

被折叠的 条评论
为什么被折叠?



