Probabilistic Machine Learning:Introduction 概率机器学习:简介- 2 概率:一元模型(1)-page61~74/858,2.1简介和2.2随机变量

2.1 简介
在本章中,我们简要介绍概率论的基础知识。有许多更详细的好书,例如 [GS97; BT08; Cha21]。
2.1.1 什么是概率?
概率论不过是常识化为计算。 — Pierre Laplace,1812
我们都习惯性地说,抛一枚(公平的)硬币正面朝上的概率是50%。但这是什么意思呢?实际上,对概率有两种不同的解释。一种被称为频率主义解释。在这个观点中,概率表示可以多次发生的事件的长期频率。例如,上面的说法意味着,如果我们多次抛硬币,我们期望它正面朝上的次数大约是一半。1
另一种解释被称为贝叶斯概率解释。在这个观点中,概率用来量化我们对某事的不确定性或无知;因此,它与信息而不是重复试验基本相关 [Jay03; Lin06]。在贝叶斯观点中,上面的说法意味着我们认为硬币在下一次抛掷时正反面出现的可能性相等。
贝叶斯解释的一个重要优势是,它可以用来对不具有长期频率的一次性事件的不确定性进行建模。例如,我们可能想计算到2030年极地冰盖融化的概率。这个事件将发生零次或一次,但不能重复发生。尽管如此,我们应该能够量化对这一事件的不确定性;基于我们认为这一事件有多大可能性,我们可以决定如何采取最佳行动,如第5章所讨论的。因此,在本书中我们将采用贝叶斯解释。
幸运的是,无论采用哪种解释,概率论的基本规则都是相同的。
2.1.2 不确定性的类型
我们的预测中的不确定性可能有两个根本不同的原因。第一个原因是由于我们对生成数据的潜在隐含原因或机制的无知。这被称为认识论不确定性,因为认识论是用来描述知识研究的哲学术语。然而,这的一个更简单的术语是模型不确定性。第二种不确定性来自固有变异性,即使我们收集更多数据也无法减少。这有时被称为aleatoric不确定性[Hac75; KD09],源自拉丁语中“骰子”的词,尽管一个更简单的术语可能是数据不确定性。作为一个具体的例子,考虑抛掷一枚公平的硬币。我们可能确切地知道正面朝上的概率是 p = 0.5,因此没有认识论不确定性,但我们仍然无法完全预测结果。
这种区别对于主动学习等应用可能很重要。典型的策略是查询 H(p(y|x, D)) 大的示例(其中 H§ 是熵,见第6.1节)。然而,这可能是由于对参数的不确定性,即大的 H(p(θ|D)),或仅仅是由于结果的固有可变性,对应于 p(y|x, θ) 的大熵。在后一种情况下,收集更多样本将没有多大用处,因为我们的不确定性不会减少。有关此观点的进一步讨论,请参见 [Osb16]。

2.1.3 概率作为逻辑的扩展
在本节中,我们按照 [Jay03] 的介绍,将概率视为布尔逻辑的扩展,回顾概率的基本规则。
2.1.3.1 事件的概率
我们将事件表示为二元变量 A,它是世界某种状态的发生或不发生。例如,A 可能是事件“明天会下雨”,或“昨天下雨了”,或“标签是 y = 1”,或“参数 θ 在 1.5 到 2.0 之间”等。表达式 Pr(A) 表示您相信事件 A 为真的概率(或 A 将发生的长期比例)。我们要求 0 ≤ Pr(A) ≤ 1,其中 Pr(A) = 0 表示事件绝对不会发生,而 Pr(A) = 1 表示事件绝对会发生。我们写 Pr(A) 表示事件 A 不发生的概率;定义为 Pr(A) = 1 − Pr(A)。
2.1.3.2 两个事件的联合概率
我们将事件 A 和 B 同时发生的联合概率表示为:
Pr(A ∧ B) = Pr(A, B) (2.1)
如果 A 和 B 是独立事件,我们有
Pr(A, B) = Pr(A) Pr(B) (2.2)
例如,假设 X 和 Y 从集合 X = {1, 2, 3, 4} 中均匀随机选择。设 A 是事件 X ∈ {1, 2},B 是事件 Y ∈ {3}。那么我们有 Pr(A, B) = Pr(A) Pr(B) = 1/2·1/4。
2.1.3.3 两个事件的并的概率
事件 A 或 B 发生的概率由以下公式给出:
Pr(A ∨ B) = Pr(A) + Pr(B) − Pr(A ∧ B) (2.3)

如果事件是互斥的(因此它们不能同时发生),我们有
[ \Pr(A \cup B) = \Pr(A) + \Pr(B) ] (2.4)
例如,假设 X 从集合 ( X = {1, 2, 3, 4} ) 中均匀随机选择。设 A 是事件 ( X \in {1, 2} ),B 是事件 ( X \in {3} )。那么我们有 ( \Pr(A \cup B) = \frac{2}{4} + \frac{1}{4} )。
2.1.3.4 给定另一个事件的条件概率
我们定义在事件 A 发生的条件下事件 B 发生的条件概率如下:
[ \Pr(B|A) = \frac{\Pr(A, B)}{\Pr(A)} ] (2.5)
如果 ( \Pr(A) = 0 ),则此值未定义,因为我们不能对不可能发生的事件进行条件推断。
2.1.3.5 事件的独立性
如果
[ \Pr(A, B) = \Pr(A) \Pr(B) ] (2.6)
我们说事件 A 独立于事件 B。
2.1.3.6 事件的条件独立性
如果
[ \Pr(A, B|C) = \Pr(A|C) \Pr(B|C) ] (2.7)
我们说在给定事件 C 的条件下,事件 A 和 B 是条件独立的。这表示为 ( A \perp B|C )。事件通常彼此依赖,但如果我们以相关的中间变量为条

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值