机器学习中的数学

机器学习中的概率论(一)

机器学习现在越来越热门了,而且在网上有非常多的教程。而我写的这篇文章是写给对数学有极高兴趣的读者的,里面涉及的基本上都是数学方面的原理,而很少涉及到编程语言。原因有两个:(1)我对编程语言掌握的并不好;(2)我对机器学习感兴趣的更多是其中的数学原理。而我在网上很少有看到详细阐述其中深刻的数学原理的文章(也可能是我见识短浅),因此我想写这样的一篇博客,将我所掌握的一些数学知识分享出去。文章主要参考了马春鹏翻译的《模式识别与机器学习》。由于是第一次写这样的文章,望各位大佬多多包涵。

这次我就讲一些大家都熟知的一个事实:当数据量极其大的时候,事件发生的频率近似地与它发生的概率相等。在这篇博客中,我将简单地用数学知识来说明这为什么是对的。

我们从简单的抛硬币开始吧。x描述了扔硬币的结果,x=1表示正面朝上,x=0表示反面朝上。假设这是一个损坏的硬币,则硬币正面与反面朝上的概率可能不相等。设μ表示x=1发生的概率,则有

p(x=1|μ)=μ
p(x=0|μ)=1μ

其中0μ1,则x的分布概率可以写成
Bern(x|μ)=μx(1μ)1x

现在,我们假设有一组关于x的观测数据集D=(x1,......xN),假设每次观测都是独立的,我们可以构造关于μ的似然函数

p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn

其对应的对数似然函数为

lnp(D|μ)=n=1N{xnlnμ+(1xn)ln(1μ)}

最大化似然函数得

μ=1Nn=1Nxn

即正面朝上的概率就是观测到正面朝上所占的比例。

然而,这并不完全正确。让我们思考一个例子,假设我们只抛了三次硬币,并且这三次都是正面朝上,则代入上述结果,得到μ=1,即正面朝上的概率为百分之百。这明显不符合我们的日常经验。

为了修正这个误差,我们需要引入μ的先验分布,也就是说μ也是满足一个分布函数的。如果我们选择一个正比于μ(1μ)的幂指数的先验概率分布,那么后验概率就会有着与先验分布相同的函数形式。这个性质叫做共轭性。

在这里,我们将先验分布选为Beta分布,定义为

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1

其中

Γ(x)=0ux1eudu

x取正整数时,有
Γ(x+1)=x!

同时,我们可以得到,观测到mx=1出现的概率为

Bin(m|N,μ)=(Nm)μm(1μ)Nm
(Nm)=N!(Nm)!m!

我们把这个分布称为二项分布。

我们将二项分布与Beta分布相乘,得到 μ的后验概率分布为

p(μ|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μm+a1(1μ)l+b1
l=Nm

根据概率的加和规则与乘积规则,得

p(x=1|D)=10p(x=1|μ)p(μ|D)dμ=10μp(μ|D)dμ=E[μ|D]

则有

p(x=1|D)=m+am+a+l+b

此时,我们得到

limNp(x=1|D)=mm+l=mN

由此,我们得到了文章开头得到的结论:当数据量极其大的时候,事件发生的频率近似地与它发生的概率相等。

当然,这只是大数定理的一个简单验证,但是这个过程中所体现的数学思想极其深刻。尽管要理解这些有点难度,但是当我把这些问题想清楚时,我深深地被其中深刻的思想所折服,这也是我认为的数学的魅力所在。

若对本文有什么意见或建议,欢迎与我交流。本人的qq号如下:1135778478。第一次写博客,写得不好,请见谅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值