《深度学习》 第3章 概率与信息论
概率不仅提供量化不确定性的方法,也提供了用于导出新的不确定性声明的公理
为什么要使用概率
不确定性有三种来源:
- 被建模系统内在的随机性
- 不完全观测
- 不完全建模
频率派概率:概率直接与事件发生的频率相联系
贝叶斯概率:概率涉及到确定性水平
随机变量
概率分布
离散型变量和概率质量函数
∑iP(x=xi)=∑i1k=1\sum_iP(\mathrm x = x_i) = \sum_i\frac1k = 1i∑P(x=xi)=i∑k1=1
连续型变量和概率模型函数
∫p(x)dx=1\int p(x) dx = 1∫p(x)dx=1
边缘概率
∀x∈x,P(x=x)=∑yP(x=x,y=y)\forall x \in \mathrm x,P(\mathrm x = x) = \sum_yP(\mathrm x = x, \mathrm y = y)∀x∈x,P(x=x)=y∑P(x=x,y=y)
p(x)=∫p(x,y)dyp(x) = \int p(x, y)dyp(x)=∫p(x,y)dy
条件概率
P(y=y∣x=x)=P(y=y,x=x)P(x=x)P(\mathrm y = y | \mathrm x = x) = \frac {P(\mathrm y = y, \mathrm x = x)} {P(\mathrm x = x)}P(y=y∣x=x)=P(x=x)P(y=y,x=x)
不要把条件概率和干预查询相混淆
条件概率的链式法则
P(x(1),…,x(n))=P(x(1))∏i=2nP(x(1),…,x(i−1))P(\mathrm x^{(1)},\ldots,\mathrm x^{(n)}) = P(\mathrm x^{(1)})\prod_{i=2}^nP\left(\mathrm x^{(1)},\ldots,\mathrm x^{(i-1)}\right)P(x(1),…,x(n))=P(x(1))i=2∏nP(x(1),…,x(i−1))
独立性和条件独立性
∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)\forall x \in \mathrm x, y \in \mathrm y, p(\mathrm x = x, \mathrm y = y) = p(\mathrm x = x)p(\mathrm y = y)∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)
∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)\forall x \in \mathrm x, y \in \mathrm y, z \in \mathrm z, p(\mathrm x = x, \mathrm y = y | \mathrm z = z) = p(\mathrm x = x| \mathrm z = z)p(\mathrm y = y | \mathrm z = z)∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)
期望、方差和协方差
协方差给出了两个变量线性相关性的强度以及变量的尺度
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]\mathrm{Cov}(f(x), g(y)) = \mathbb E[(f(x) - \mathbb E[f(x)])(g(y) - \mathbb E[g(y)])] Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
相关系数将变量贡献归一化,只衡量变量的相关性。
独立性比零协方差要求更严,因为独立性还排除了非线性的关系
常见概率分布
Bernoulli分布
Multinoulli分布
高斯分布
N(x;μ,σ2)=12πσ2exp(−12σ2(x−μ)2)\mathcal N(x;\mu, \sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}} \mathrm{exp} \left( -\frac{1}{2\sigma^2}(x - \mu)^2 \right)N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
正态分布是比较好的默认选择,原因有二:
- 很多分布的真实情况接近正态分布
- 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性
指数分布和Laplace分布
p(x;λ)=λ1x≥0exp(−λx)p(x;\lambda) = \lambda 1_{x \geq 0} \mathrm {exp}(-\lambda x)p(x;λ)=λ1x≥0exp(−λx)
Laplace(x;μ,γ)=12γexp(−∣x−μ∣γ)\mathrm{Laplace}(x;\mu,\gamma) = \frac{1}{2\gamma} \mathrm{exp}\left( -\frac{|x - \mu|}{\gamma} \right)Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)
Dirac分布和经验分布
p(x)=δ(x−μ)p(x) = \delta(x - \mu)p(x)=δ(x−μ)
p^(x)=1m∑i=1mδ(x−x(i))\hat p(x) = \frac 1m \sum_{i=1}^{m}\delta(x-x^{(i)})p^(x)=m1i=1∑mδ(x−x(i))
可以认为从训练集上得到的经验分布指明了采样来源的分布,其是训练数据的似然最大的那个概率密度函数
分布的混合
混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。
一种非常强大且常见的混合模型是高斯混合模型,其是概率密度的万能近似器
常用函数的有用性质
σ(x)=11+exp(−x) \sigma(x) = \frac {1}{1 + \mathrm{exp}(-x)}σ(x)=1+exp(−x)1
ζ(x)=log(1+exp(x)) \zeta(x) = \mathrm{log}(1 + \mathrm{exp}(x))ζ(x)=log(1+exp(x))
x+=max(0,x) x^+ = \mathrm{max}(0, x)x+=max(0,x)
下面一些性质有用:
σ(x)=exp(x)exp(x)+exp(0)\sigma(x) = \frac{\mathrm{exp}(x)}{\mathrm{exp}(x) + \mathrm{exp}(0)} σ(x)=exp(x)+exp(0)exp(x)
ddxσ(x)=σ(x)(1−σ(x)) \frac{d}{dx}\sigma(x) = \sigma(x)(1-\sigma(x))dxdσ(x)=σ(x)(1−σ(x))
1−σ(x)=σ(−x) 1-\sigma(x) = \sigma(-x) 1−σ(x)=σ(−x)
logσ(x)=−ζ(−x) \mathrm{log}\sigma(x) = -\zeta(-x)logσ(x)=−ζ(−x)
ddxζ(x)=σ(x) \frac{d}{dx}\zeta(x) = \sigma(x) dxdζ(x)=σ(x)
∀x∈(0,1),σ−1(x)=log(x1−x)\forall x \in (0,1), \sigma^{-1}(x) = \mathrm{log}\left(\frac{x}{1-x} \right)∀x∈(0,1),σ−1(x)=log(1−xx)
∀x>0,ζ−1(x)=log(exp(x)−1)\forall x > 0, \zeta^{-1}(x) = \mathrm{log}(\mathrm{exp}(x)-1)∀x>0,ζ−1(x)=log(exp(x)−1)
ζ(x)=∫−∞xσ(y)dy\zeta(x) = \int_{-\infty}^x\sigma(y)dyζ(x)=∫−∞xσ(y)dy
ζ(x)−ζ(−x)=x\zeta(x) - \zeta(-x) = xζ(x)−ζ(−x)=x
贝叶斯规则
P(x∣y)=P(x)P(y∣x)P(y)P(\mathrm x | \mathrm y) = \frac{P(\mathrm x)P(\mathrm y |\mathrm x)}{P(\mathrm y)}P(x∣y)=P(y)P(x)P(y∣x)
连续变量型的技术细节
∣py(g(x))dy∣=∣px(x)dx∣|p_y(g(x))dy| = |p_x(x)dx|∣py(g(x))dy∣=∣px(x)dx∣
信息论
对一个信号包含信息的多少进行量化
三个性质:
- 非常可能发生的事件信息量要比较少
- 较不可能发生的事件具有更高的信息量
- 独立事件应具有增量的信息
自信息:
I(x)=−logP(x)I(x) = -\mathrm{log}P(x)I(x)=−logP(x)
一奈特是以1/e1/e1/e的概率观测到一个事件时获得的信息量
香农熵:
H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]H(\mathrm x) = \mathbb E_{\mathrm x \sim P}[I(x)] = -\mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)]H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量
KL散度衡量两个独立的概率分布的差异:
DKL(P∣∣Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)]D_{\mathrm{KL}}(P||Q) = \mathbb E_{\mathrm x \sim P} \left[ \mathrm{log} \frac{P(x)}{Q(x)} \right] = \mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)-\mathrm{log}Q(x)] DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)]
在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布QQQ产生的消息的长度最小的编码,发送包含由概率分布PPP产生的符号的消息时,所需要的额外信息量。或者说是数据的原始分布PPP和近似分布QQQ之间的对数差值的期望。
交叉熵:
H(P,Q)=H(P)+DKL(P∣∣Q)=−Ex∼PlogQ(x)H(P,Q) = H(P) + D_{\mathrm{KL}}(P||Q) = -\mathbb E_{\mathrm x \sim P}\mathrm{log}Q(x)H(P,Q)=H(P)+DKL(P∣∣Q)=−Ex∼PlogQ(x)
针对QQQ最小化交叉熵等价于最小化KL散度,因为QQQ并不参与被省略的那一项
结构化概率模型
有向模型:
p(x)=∏ip(xi∣PaG(xi))p(\mathrm x) = \prod_ip(\mathrm x_i|Pa_\mathcal G(\mathrm x_i))p(x)=i∏p(xi∣PaG(xi))
无向模型:
p(x)=1Z∏iϕ(i)(C(i))p(\mathrm x) = \frac{1}{Z}\prod_i\phi^{(i)}(\mathcal C^{(i)})p(x)=Z1i∏ϕ(i)(C(i))
这些图模型表示的分解仅仅是描述概率分布的一种语言