第3章 概率与信息论
3.1 为什么使用概率
- 频率派概率:概率直接与事件发生的频率相联系,如果一个事件发生的概率为p,p是可以通过反复试验由频率确定的。此时的概率p可以理解为一个参数可以通过试验确定。频率派进行推断时,依赖于数据的分布,以及试验观察获得的结果,通过似然函数进行推断。对于似然函数p(x|w),频率派认为w是一个确定的参数,通过极大似然估计法确定w。
- 贝叶斯概率:概率用来表示一种信任度,表示一种确定性水平。此时p可以当做一个随机变量,变量表示事件的不确定程度。贝叶斯学派进行推断时,依赖于事件的总分布(先验),数据分布,试验观察的结果。采用后验概率进行推断,后验 = 先验 * 似然。p(w|x) = p(w)p(x|w),贝叶斯学派采用最大化后验概率的方式确定w。
3.2 随机变量
3.3 概率分布
- 离散型变量和概率质量函数:离散型变量取值是离散的,概率分布为概率质量函数P(x)。
- 连续型变量和概率密度函数: 连续型变量取值是连续的,概率分布为概率密度函数p(x),
。概率密度函数p(x)没有直接给出对某一状态的概率,相对的,它给出了落在面积为
的无限小的区域内的概率为
。x落到点集[a, b]内的概率为
。
3.4 边缘概率
- 边缘概率分布:已知一组随机变量集合的联合概率分布
,该集合的一个子集的概率分布为边缘概率分布。离散型变量的边缘概率分布:
。连续型变量的边缘概率分布:
。
3.5 条件概率
- 条件概率:给定条