概率与信息论（一）_干预查询和条件概率-优快云博客

本文概述了概率论的基本概念，包括随机变量、离散型和连续型的概率分布、概率质量函数、概率密度函数、边缘概率、条件概率以及期望、方差和协方差等统计量，介绍了它们的定义、计算方法和应用场景。

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性声明(statement)的公理。首先，概率法则告诉我们 AI 系统如何推理，据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

Deep Learning pdf

越学习愈发觉得，自己的数学功底还是比较薄弱。虽然之前有特意去学习过，包括看过宋浩的概率论，但是真正论起数学推导，还是很少…… 所以还是系统的回顾一下。

随机变量

随机变量(random variable)是可以随机地取不同值的变量。
我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身，而用手写体中的小写字母来表示随机变量能够取到的值。例如 :
$x_1 和 x_2 都是随机变量 x 可能的取值。$

概率分布

概率分布(probability distribution) 用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

离散型变量和概率质量函数

离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF) 来描述。我们通常用大写字母 $P$ 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数，并且读者必须根据随机变量来推断所使用的 $PMF$ ，而不是根据函数的名称来推断;

例如: $P (x)$ 通常和 $P (y)$ 不一样。

概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。${\rm x} = x $ 的概率用 $P (x)$ 来表示

概率为 1 表示 $x=x{\rm x} = x$ 是确定的
概率为 0 表示 $x=x{\rm x} = x$ 是不可能发生的。

为了使得PMF的使用不相互混淆，我们会明确写出随机变量的名称: $({\rm x} = x)$ 。有时我们会先定义一个随机变量，然后用 $\sim$ 符号来说明它遵循的分布: $x \sim P (x)$ 。

概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为 联合概率分布(joint probability distribution)。 $({\rm x} = x, {\rm y} = y)$ 表示 $x=x{\rm x} = x$ 和 $y=y{\rm y} = y$ 同时发生的概率。我们也可以简写为 $P (x, y)$ 。

如果一个函数 $P$ 是随机变量 $x{\rm x}$ 的 $PMF$ ，必须满足下面这几个条件:

$P$ 的定义域必须是 $x{\rm x}$ 所有可能状态的集合。
$∀x∈x,0≤P(x)≤1\forall x ∈ {\rm x}, 0 \le P (x) \le 1$ . 不存在比这概率 0 更低的。类似的，不存在比概率 1 更高的。
$∑x∈xP(x)=1\sum _{x \in {\rm x}} P (x) = 1$ . 我们把这条性质称之为归一化的(normalized)。如果没有这条性质，当我们计算很多事件其中之一发生的概率时可能会得到大于 1 的概率。

连续型变量和概率密度函数

当我们研究的对象是连续型随机变量时，我们用 概率密度函数(probability density function, PDF) 来描述它的概率分布。如果一个函数 $p$ 是概率密度函数，必须满足下面这几个条件:

$P$ 的定义域必须是 $x{\rm x}$ 所有可能状态的集合。
$∀x∈x,P(x)≥0\forall x ∈ {\rm x}, P (x) \ge 0$ . 注意，并不要求 $\le 1$ ;
$∫p(x)dx=1\int p(x)dx = 1$

概率密度函数 $p (x)$ 并没有直接对特定的状态给出概率，相对的，它给出了落在
面积为 $δx\delta x$ 的无限小的区域内的概率为 $p(x)δxp(x)\delta x$ 。

在单变量的例子中， $x$ 落在区间 $[a, b]$ 的概率是$\int_{[a,b]} p(x)dx $。

边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为 边缘概率分布(marginal probability distribution)。

对于离散型随机变量 $x{\rm x}$ 和 $y{\rm y}$ ，并且我们知道 $P(x,y)P({\rm x},{\rm y})$ 。我们可以依据下面的 求和法则(sum rule) 来计算 $P(x)P({\rm x})$ :

$\forall x ∈ {\rm x},P({\rm x} = x) = P({\rm x} = x, {\rm y} = y).$

对于连续型变量，我们需要用积分替代求和:

$\int p(x, y)dy.$

条件概率

顾名思义，在给定其他事件发生时出现的概率。这种概率叫做条件概率。
我们将给定 $x=x，y=y{\rm x} = x ，{\rm y} = y$ 发生的条件概率记为 $ P({\rm y} = y | {\rm x} = x)$。这个条件概率可以通过下面的公式计算:

$P({\rm y} = y | {\rm x} = x)= \frac{P({\rm y} = y, {\rm x} = x)}{P({\rm x} = x)} \tag{3.5}$

条件概率只在 ${\rm x} = x) > 0$ 时有定义。我们不能计算给定在永远不会发生的事件上
的条件概率。

这里需要注意的是，不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语，那么他是德国人的条件概率是非常高的，但是如果随机选择的一个人会说德语，他的国籍不会因此而改变。计算一个行动的后果被称为 干预查询(intervention query) 。干预查询属于 因果模型(causal modeling) 的范畴，我们不会在本书中讨论。

条件概率的链式法则

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相
乘的形式:

$P({\rm x}^{(1)},...,{\rm x}^{(n)})=P({\rm x}^{(1)})\prod_{i=2}^nP({\rm x}^{(i)} | {\rm x}^{(1)},...,{\rm x}^{(i - 1)}) \tag{3.6}$

直观的为：

$P(X_1, X_2, ... X_n) = P(X_1 | X_2, X_3 ... X_n) * P(X_2 | X_3, X_4 ... X_n) ... P(X_n-1 | X_n) * P(X_n)$

这个规则被称为概率的 链式法则(chain rule) 或者 乘法法则(product rule) 。它可以直接从条件概率的定义中得到。例如，使用两次定义可以得到:

$\\$

$P (b, c) = P (b ∣ c) P (c)$

$\\$

独立性和条件独立性

两个随机变量 $x{\rm x}$ 和 $y{\rm y}$ ，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 $x{\rm x}$ 另一个因子只包含 $y{\rm y}$ ，我们就称这两个随机变量是 相互独立的 (independent):

$\forall x \in {\rm x} ,y \in {\rm y}, p({\rm x} = x, {\rm y} = y) = p({\rm x} = x)p({\rm y} = y).$

还有一种：在给定 xx 时，条件独立；
如果关于 $x{\rm x}$ 和 $y{\rm y}$ 的条件概率分布对于 $z{\rm z}$ 的每一个值都可以写成乘积的形式，那么这两个随机变量 $x{\rm x}$ 和 $y{\rm y}$ 在给定随机变量 $z{\rm z}$ 时是 条件独立的(conditionally independent):

$\forall x \in {\rm x} ,y \in {\rm y}, z \in {\rm z}, p({\rm x} = x, {\rm y} = y|{\rm z} = z) = p({\rm x} = x|{\rm z} = z)p({\rm y} = y|{\rm z} = z).$

我们可以采用一种简化形式来表示独立性和条件独立性: $x⊥y{\rm x} \bot {\rm y}$ 表示 $x{\rm x}$ 和 $y{\rm y}$ 相互独立， $x⊥y∣z{\rm x} \bot {\rm y} | {\rm z}$ 表示 $x{\rm x}$ 和 $y{\rm y}$ 在给定 $z{\rm z}$ 时条件独立。