机器学习中的数学

原创于 2017-11-03 23:23:40 发布 · 944 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #数学

机器学习中的概率论（一）

机器学习现在越来越热门了，而且在网上有非常多的教程。而我写的这篇文章是写给对数学有极高兴趣的读者的，里面涉及的基本上都是数学方面的原理，而很少涉及到编程语言。原因有两个：（1）我对编程语言掌握的并不好；（2）我对机器学习感兴趣的更多是其中的数学原理。而我在网上很少有看到详细阐述其中深刻的数学原理的文章（也可能是我见识短浅），因此我想写这样的一篇博客，将我所掌握的一些数学知识分享出去。文章主要参考了马春鹏翻译的《模式识别与机器学习》。由于是第一次写这样的文章，望各位大佬多多包涵。

这次我就讲一些大家都熟知的一个事实：当数据量极其大的时候，事件发生的频率近似地与它发生的概率相等。在这篇博客中，我将简单地用数学知识来说明这为什么是对的。

我们从简单的抛硬币开始吧。 $x$ 描述了扔硬币的结果, $x=1$ 表示正面朝上， $x=0$ 表示反面朝上。假设这是一个损坏的硬币，则硬币正面与反面朝上的概率可能不相等。设 $\mu$ 表示 $x=1$ 发生的概率，则有

p (x = 1 | μ) = μ

$p(x=1|\mu)=\mu$

p (x = 0 | μ) = 1 - μ

$p(x=0|\mu)=1-\mu$
其中

0≤μ≤1 $0\leq\mu\leq1$ ,则

x $x$ 的分布概率可以写成

B e r n (x | μ) = μ x (1 - μ) 1 - x

$Bern(x|\mu)=\mu^{x}(1-\mu)^{1-x}$

现在，我们假设有一组关于 $x$ 的观测数据集 $D=(x_{1},......x_{N})$ ，假设每次观测都是独立的，我们可以构造关于 $\mu$ 的似然函数

p (D | μ) = \prod n = 1 N p (x n | μ) = \prod n = 1 N μ x n (1 - μ) 1 - x n

$p(D|\mu)=\prod_{n=1}^{N}p(x_{n}|\mu)=\prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}$

其对应的对数似然函数为

l n p (D | μ) = \sum n = 1 N {x n l n μ + (1 - x n) l n (1 - μ)}

$lnp(D|\mu)=\sum_{n=1}^{N}\{x_{n}ln\mu+(1-x_{n})ln(1-\mu)\}$

最大化似然函数得

μ = 1 N \sum n = 1 N x n

$\mu=\tfrac{1}{N}\sum_{n=1}^{N}x_{n}$

即正面朝上的概率就是观测到正面朝上所占的比例。

然而，这并不完全正确。让我们思考一个例子，假设我们只抛了三次硬币，并且这三次都是正面朝上，则代入上述结果，得到 $\mu=1$ ,即正面朝上的概率为百分之百。这明显不符合我们的日常经验。

为了修正这个误差，我们需要引入 $\mu$ 的先验分布，也就是说 $\mu$ 也是满足一个分布函数的。如果我们选择一个正比于 $\mu$ 与 $(1-\mu)$ 的幂指数的先验概率分布，那么后验概率就会有着与先验分布相同的函数形式。这个性质叫做共轭性。

在这里，我们将先验分布选为Beta分布，定义为

B e t a (μ | a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1

$Beta(\mu|a,b)=\tfrac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}\mu^{a-1}(1-\mu)^{b-1}$

其中

Γ (x) = \int \infty 0 u x - 1 e - u d u

$\Gamma(x)=\int_{0}^{\infty }u^{x-1}e^{-u}du$
当

x $x$ 取正整数时，有

Γ (x + 1) = x!

$\Gamma(x+1)=x!$

同时，我们可以得到，观测到 $m$ 次 $x=1$ 出现的概率为

B i n (m | N, μ) = (N m) μ m (1 - μ) N - m

$Bin(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}$

(N m) = N ! ( N - m ) ! m !

$\binom{N}{m}=\frac{N!}{(N-m)!m!}$
我们把这个分布称为二项分布。

我们将二项分布与Beta分布相乘，得到 $\mu$ 的后验概率分布为

p (μ | m, l, a, b) = Γ ( m + a + l + b ) Γ ( m + a ) Γ ( l + b ) μ m + a - 1 (1 - μ) l + b - 1

$p(\mu|m,l,a,b)=\frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}$

l = N - m

$l=N-m$

根据概率的加和规则与乘积规则，得

p (x = 1 | D) = \int 10 p (x = 1 | μ) p (μ | D) d μ = \int 10 μ p (μ | D) d μ = E [μ | D]

$p(x=1|D)=\int_{0}^{1}p(x=1|\mu)p(\mu|D)d\mu=\int_{0}^{1}\mu p(\mu|D)d\mu=E[\mu|D]$

则有

p (x = 1 | D) = m + a m + a + l + b

$p(x=1|D)=\frac{m+a}{m+a+l+b}$

此时，我们得到

lim N \to \infty p (x = 1 | D) = m m + l = m N

$\lim_{N\rightarrow\infty}p(x=1|D)=\frac{m}{m+l}=\frac{m}{N}$

由此，我们得到了文章开头得到的结论：当数据量极其大的时候，事件发生的频率近似地与它发生的概率相等。

当然，这只是大数定理的一个简单验证，但是这个过程中所体现的数学思想极其深刻。尽管要理解这些有点难度，但是当我把这些问题想清楚时，我深深地被其中深刻的思想所折服，这也是我认为的数学的魅力所在。

若对本文有什么意见或建议，欢迎与我交流。本人的qq号如下：1135778478。第一次写博客，写得不好，请见谅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。