概率与信息论基础
1. 为何需要概率?
计算机科学的许多分支主要处理确定性和可预测的实体。然而,机器学习却大量使用概率理论,这是因为机器学习必须处理不确定和随机的量。不确定性和随机性可能源于以下三个方面:
- 系统固有的随机性 :例如,量子力学描述亚原子粒子的动态是概率性的。
- 不完全可观测性 :即使是确定性系统,如果我们不能观察到驱动系统行为的所有变量,也可能表现出随机性,如蒙提霍尔问题。
- 不完全建模 :当我们使用的模型丢弃了部分观察到的信息时,这些被丢弃的信息会导致模型预测的不确定性。
概率理论最初用于分析事件的频率,即频率派概率。但在某些情况下,如医生诊断患者,我们使用概率来表示信念程度,即贝叶斯概率。虽然这两种概率的概念不同,但基于一些常识性假设,它们遵循相同的公理。概率可以看作是逻辑在处理不确定性方面的扩展。
2. 随机变量
随机变量是可以随机取不同值的变量。通常用小写字母表示随机变量本身,用小写手写字母表示它可能取的值。随机变量可以是离散的或连续的。离散随机变量有有限或可数无限个状态,而连续随机变量与实数值相关联。
3. 概率分布
概率分布描述了随机变量或一组随机变量取每个可能状态的可能性。根据变量是离散还是连续,描述概率分布的方式有所不同。
3.1 离散变量与概率质量函数
离散变量的概率分布可以用概率质量函数(PMF)来描述。概率质量函数将随机变量的状态映射到该状态发生的概率。要成为随机变量 x 的概率质量函
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



