第三章 概率与信息论
3.1 为什么要使用概率?
- 机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定性的) 量
- 不确定性有三种可能的来源:
- 被建模系统内在的随机性
- 不完全观测
- 不完全建模
- 频率派概率(frequentist probability):直接与事件发生的频率相联系,例如,像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的。这类事件往往是可以重复的。当我们说一个结果发生的概率为p,这意味着如果我们反复实验(例如,抽取一手牌) 无限次,有p 的比例可能会导致这样的结果
- 贝叶斯概率(Bayesian probability):涉及到确定性水平,例如,在医生诊断病人的例子中,我们用概率来表示一种信任度(degree of belief),其中1 表示非常肯定病人患有流感,而0 表示非常肯定病人没有流感
3.2 随机变量
- 随机变量(random variable):可以随机地取不同值的变量。我们通常用无格式字体(plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字母来表示随机变量能够取到的值。
3.3 概率分布
3.3.1 离散型变量和概率质量函数
- 概率分布律函数 (probability mass function, PMF):离散型变量的概率分布
- P 的定义域必须是 x 所有可能状态的集合。
- ∀x ∈ X, 0 ≤ P (x) ≤ 1.
- Σx ∈ XP(x) = 1: 我们把这条性质称之为归一化的(normalized)
-
联合概率分布 (joint probability distribution):多个变量的概率分布
- P(X = x; Y = y) 表示X = x 和Y = y 同时发生的概率。我们也可以简写为P(x; y)
- 均匀分布:P(X=x)=1/k
3.3.2 连续型变量和概率密度函数
- 概率密度函数 (probability density function, PDF):连续型变量的概率分布
- 如果一个函数p是概率密度函数,必须满足下面这几个条件:
- p 的定义域必须是 x 所有可能状态的集合。
- ∀x ∈ x,p(x) ≥ 0. 注意,我们并不要求 p(x) ≤ 1
- ∫ p(x)dx = 1.
- x ∼ U(a,b) 表示 x 在 [a,b] 上是均匀分布的,p(x)=1/(b-a)
3.4 边缘概率
- 边缘概率分布 (marginal probability distribution):定义在子集上的概率分布
- 设离散型随机变量x和y,已知P(x,y),得到P(x):
-
- 对于连续型变量:
3.5 条件概率
- 我们将给定X = x,Y = y 发生的条件概率记为P(Y = y |X = x)。这个条件概率可以通过下面的公式计算:
3.6 条件概率的链式法则
3.7 独立性和条件独立性
- 独立性(independent):两个随机变量x 和y,它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x 另一个因子只包含y
- 条件独立性(conditionally independent):关于x 和y 的条件概率分布对于z 的每一个值都可以写成乘积的形式
3.8 期望、方差和协方差
- 期望(expectation):当x 由P 产生,f 作用于x 时,f(x) 的平均值


- 期望是线性的,例如,
其中 和 不依赖于x
- 方差(variance):衡量的是当我们对x 依据它的概率分布进行采样时,随机变量x 的函数值会呈现多大的差异
- 协方差 (covariance):两个变量线性相关性的强度以及这些变量的尺度
协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很 远。如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值,反之亦然。其他的衡量指标如相关系数(correlation)将每个变量的贡献归一化,为了只衡量变量的相关性,而不受变量大小的分别影响。
- 两个变量如果协方差为零,它们之间一定没有线性关系。
- 协方差矩阵 (covariance matrix):
3.9 常用概率分布
3.9.1 Bernoulli 分布
- Bernoulli分布 (Bernoulli distribution)是单个二值型随机变量的分布。相关性质:
P (x = 1) = φ
P (x = 0) = 1 − φ
二项分布(Binomial distribution)将伯努利试验独立地重复n次称为n重伯努利试验
P(x = x) = φ^x · (1 − φ)^1−x
E[x] = φ
Var(x) = φ(1 − φ)
3.9.2 Multinoulli 分布
- Multinoulli 分布 (multinoulli distribution) 或者分类分布 (categorical distribution) 是指在具有 k 个不同状态的单个离散型随机变量上的分布,k 是有限的。比如扔骰子
3.9.3 高斯分布
- 正态分布 (normal distribution),也称为高斯分布 (Gaussian distribution)
- 采用一种更高效的使用参数描述分布的方式是使用参数 :β=1/σ^2,β ∈ (0, ∞),来控制分布的精度 (precision) 或者方差的倒数
- 中心极限定理(central limit theorem):大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布
3.9.4 指数分布和 Laplace 分布
- 指数分布 (exponential distribution):
- Laplace分布 (Laplace distribution):
3.9.5 Dirac 分布和经验分布
- 在一些情况下,我们想要所有的概率都集中在一个点上。这可以通过Dirac delta 函数 (Dirac delta function)δ(x) 定义概率密度函数来实现:
- Dirac delta 函数被定义成除了 0 以外的其他点的值都为 0,但是积分为 1。
- Dirac 分布经常作为经验分布 (empirical distribution)的一个组成部分出现:
3.9.6 分布的混合
3.10 常用函数的一些性质
- logistic sigmoid函数:

logistic sigmoid函数通常用来产生Bernoulli 分布中的参数 φ,因为它的范围是 (0, 1), 处在 φ 的有效取值范围内。图中给出了 sigmoid 函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和 (saturate) 现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
- softplus 函数 (softplus function):

- 一些有用的性质:
3.11 贝叶斯规则
- 贝叶斯规则 (Bayes’ rule):
注意到P(y) 出现在上面的公式中,它通常使用P(y) =Σx P(y | x)P(x) 来计算,所以我们并不需要事先知道P(y) 的信息
3.12 连续型变量的技术细节
......
附:联合概率与边缘概率的区别与关系
1.联合概率
联合概率指的是包含多个条件且所有条件同时成立的概率,记作P(X=a,Y=b)或P(a,b),有的书上也习惯记作P(ab),但是这种记法个人不太习惯,所以下文采用以逗号分隔的记法。
一定要注意是所有条件同时成立!
2.边缘概率
边缘概率是与联合概率对应的,P(X=a)或P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率
3.联合概率与边缘概率的关系
P(X=a)=∑bP(X=a,Y=b) P(X=a)=∑bP(X=a,Y=b)
P(Y=b)=∑aP(X=a,Y=b) P(Y=b)=∑aP(X=a,Y=b)
求和符号表示穷举所有Y(或X)所能取得b(或a)后,所有对应值相加得到的和